ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA!

2024-09-23 发布 · 浏览96次 · 点赞0次 · 收藏0次

本文的主要作者来自上海交通大学智能机器人与机器视觉(IRMV)实验室。本文第一作者是实验室硕士生刘久铭,主要研究方向为点云配准,雷达里程计,多模态融合,nerf/3DGS 渲染,3D生成等。曾在CVPR,ICCV,ECCV,AAAI等会议发表论文多篇。

本文通讯作者及指导教师为王贺升教授,教授团队近年来在计算机视觉与机器人权威期刊(TPAMI,TRO)与国际顶级学术会议(CVPR,ICCV,ECCV,AAAI,ICRA,IROS)上发表多篇机器人移动定位导航相关论文,与国内外知名高校,科研机构展开广泛合作。

视觉 / 激光雷达里程计是计算机视觉和机器人学领域中的一项基本任务,用于估计两幅连续图像或点云之间的相对位姿变换。它被广泛应用于自动驾驶、SLAM、控制导航等领域。最近,多模态里程计越来越受到关注,因为它可以利用不同模态的互补信息,并对非对称传感器退化具有很强的鲁棒性。

以往基于学习的方法大多采用图 1 a) 所示的特征级融合策略,无法捕捉细粒度像素到点的对应关系。最近,一些网络设计了点到图像的投影和局部特征聚合,如图 1 b) 所示,但其性能仍然受到稀疏激光雷达点和密集相机像素之间内在数据结构错位的限制。

为了解决这些问题,来自上海交通大学、加州伯克利大学的研究团队提出了一种具有双向结构对齐功能的新型局部到全局融合网络 (DVLO)。

图片

  • 论文链接:https://arxiv.org/pdf/2403.18274

  • 代码仓库:https://github.com/IRMVLab/DVLO


DVLO 的融合模块由两部分组成:1)首先将图像视为一组伪点,与激光雷达点进行细粒度局部融合(图像到点的结构对齐)。2) 点云也通过圆柱投影转换为伪图像,用于全局自适应融合(点到图像结构对齐)。

图片

图 1:图像和点云的不同融合策略。之前的大多数研究都只进行全局融合或局部融合。DVLO 设计了一种局部到全局的融合策略,既能促进全局信息的交互,又能保留局部的细粒度信息。此外,还设计了双向结构对齐,以最大限度地提高模态间的互补性。

总体而言,该论文的贡献如下:

1. 提出了一种具有双向结构对齐功能的局部到全局融合里程测量网络。论文作者将图像像素视为一组伪点进行聚类,以便与激光雷达点进行局部融合。点云也通过圆柱投影转换为伪图像,用于全局自适应融合。
2. 设计了一个纯粹基于聚类的融合模块,以获得细粒度的局部融合特征。论文中提出的方法是首次基于深度聚类的多模态融合尝试,是 CNN 和 Transformer 之外的另一种高效融合策略。

在 KITTI 里程计数据集上进行的大量实验表明,DVLO 的方法在大多数序列上都优于最近所有的深度激光雷达、视觉和视觉激光雷达融合里程计方法。此外,DVLO 的融合策略还能很好地应用于其他多模态任务,如场景流估计,甚至超过了最近的 SOTA 方法 CamLiRAFT。

图片

图 2:DVLO 流程图。

方法 

总体结构 

DVLO 的总体结构如图 2 所示。给定两个点云图片,及其对应的来自一对连续帧的单目相机图像图片,里程计目标是估计两个帧之间的相对位姿,包括旋转四元数图片和平移向量图片。  

图片

图 3:研究团队设计的局部到全局(LoGo)融合模块。

层次特征提取

点特征提取

由于原始点云的不规则性和稀疏性,首先将其投影到一个圆柱面 [30, 54] 上,以有序地组织点。其对应的二维位置为:

图片

图片

其中,x、y、z 是点云的原始三维坐标,u、v 是投影伪图像上相应的二维像素位置。∆θ 和 ∆ϕ 分别是激光雷达传感器的水平和垂直分辨率。

图像特征提取

给定摄像机图像图片,利用 [17] 中基于卷积的特征金字塔提取图像特征图片。其中,图片图片 是特征图的高度和宽度。C 是图像特征的通道数。

局部融合器模块 

从图像到伪点 

给定图像特征 图片 后,首先将其重塑为伪点集合图片,其中图片为伪点个数。在这种情况下,图像具有与激光雷达点相同的数据结构,这有利于建立局部像素与点的对应关系,并进一步进行基于聚类的特征聚合。

伪点聚类

首先将激光雷达点投影到图像平面上,得到其在图像坐标系中对应的二维坐标 x′ 和 y′,作为聚类中心。根据 x′、y′ 对 图片进行双线性插值,计算出中心特。

然后,根据中心特征图片和伪点特征 图片的成对余弦相似度,将所有伪点划分为若干个聚类。在此,将每个伪点分配到最相似的聚类中心,从而得到 N 个聚类。为了提高效率,按照 Swin Transformer,在计算相似度时使用区域分割。

局部特征聚合

论文作者根据与聚类中心的相似度动态聚合同一聚类内的所有伪点特征。给定聚类包含第 i 个聚类中心以及周围的 k 个伪点,本地融合特征图片的计算公式为:

图片

图片


全局融合模块

由于局部特征融合仅在划分的区域内进行,因此上述局部融合模块的感受野有限。为了扩大感受野以进行充分的特征融合,论文作者在局部融合特征图片和点(伪图像)特征图片之间引入了全局自适应融合机制。

从点到伪图像

通过前文中的圆柱投影将稀疏的激光雷达点转换为结构化的伪图像。在这种情况下,点特征 图片 的大小为图片。这一过程将原本稀疏的非结构化点重组为密集的结构化伪图像,从而实现了下面的密集特征图与图像特征的融合。

自适应融合

给定局部融合特征 图片和点特征图片,按以下方式进行自适应全局融合:

图片


图片


图片

其中,图片图片是点(伪图像)特征和局部融合特征的自适应权重,由 sigmoid 函数和 MLP 层获得。⊙表示元素与元素之间的乘积。然后,将全局融合特征图片重塑为 N ×D 的大小,作为迭代姿态估计的输入。


位姿迭代估计 

通过将最粗糙层中两个帧的全局融合特征图片图片联系起来,利用代价卷生成粗嵌入特征图片。嵌入特征包含两个连续帧之间的相关信息。

然后,利用嵌入特征 E 上的加权嵌入掩码 M 来回归位姿变换。加权嵌入掩码 M 的计算公式为 :

图片

其中,图片是可学习的掩码。图片是源帧中的全局融合特征。然后,通过对嵌入特征和 FC 层加权,生成四元数图片和平移向量图片

图片

图片


在初始估计 q 和 t 之后,通过 PWCLO 中的迭代细化模块对它们进行细化,从而得到最终姿势。第 l 层的细化四元数图片和平移矢量图片的计算公式为:

图片

图片

其中,姿态残差图片图片可根据论文中的公式在最粗糙层中通过类似过程获得。

损失函数 

四个层的网络输出 图片 和 图片 将用于计算监督损失图片。第 l 层的训练损失函数为:

图片


其中,tgt 和 qgt 分别是地面真实平移和四元数。图片图片是可学习的标量,用于缩放损失。图片图片分别是 L1 和 L2 准则。那么,总训练损失为

图片

其中,L 是层的总数(设为 4),图片是代表第 l 层权重的超参数。

实验部分

图片


表 1:在 KITTI 里程计数据集上与不同里程计网络的比较

图片

表 2:在 KITTI 00-10 序列上与传统视觉 - 激光雷达里程计的比较。
 

图片表 3:在 KITTI 09-10 序列上与基于学习的多模态里程计的比较。 

图片

表 4:不同多模态里程计在 KITTI 里程计数据集序列 07-10 上的平均推理时间。

图片

图 4:论文作者估计的位姿轨迹。

图片

图 5:LOAM 和 DVLO 在真实的 KITTI 序列 07 上的轨迹结果。
图片
图 6:设计的基于局部聚类的融合机制在某个聚类内的可视化效果。红点表示聚类中心的二维位置。黄色区域是每个中心周围的聚类像素。

图片

表 5:泛化到场景流估计任务

图片

图 7:估计场景流的可视化。

消融实验

图片

表 6:局部 - 全局融合网络中局部融合器(LoF)和全局融合器(GoF)的有效性

图片

表 7:不同局部融合策略的消融研究
更多研究细节,可参考原论文。
ECCV 2024 oral | 首次基于深度聚类的多模态融合,上交、伯克利提出双向结构对齐的融合网络新SOTA! - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。