Multi-modal Multi-level Fusion for 3D Single Object Tracking

要約

【タイトル】
3Dシングルオブジェクトトラッキングのためのマルチモーダルマルチレベル融合

【要約】
– 3Dシングルオブジェクトトラッキングは、コンピュータビジョンにおいて重要な役割を担っている
– 主流の方法は、ポイントクラウドを利用してターゲットのテンプレートと検索エリアのジオメトリマッチングを実現している
– しかしながら、テクスチャのないまたは不完全なポイントクラウドにより、類似構造を持つオブジェクトを区別することが困難であるため、単一モーダルのトラッカーの限界が生じる
– このジオメトリマッチングの限界を克服するため、画像のテクスチャとポイントクラウドのジオメトリ特徴を活用し3Dターゲットを追跡するためのマルチモーダルマルチレベル融合トラッカー(MMF-Track)を提案する
– 具体的には、RGB画像とポイントクラウドを3D空間で整列させ、モード間の関連を構築する前提となるスペースアライメントモジュール(SAM)を最初に提案する
– 次に特徴相互作用レベルで、双方向構造に基づく特徴相互作用モジュール(FIM)を設計し、並列でモード内の特徴を強化し、モード間の意味的関連を構築する
– 同時に、各モードの特徴を洗練するために、異なるスケールでの階層的特徴相互作用を実現するためのコース・トゥ・ファイン相互作用モジュール(CFIM)を導入する
– 最後に類似性融合レベルで、ターゲットからジオメトリとテクスチャの手がかりを集約するための類似性融合モジュール(SFM)を提案する
– 実験により、当該手法はKITTIにおいて最先端の性能を発揮し(前のマルチモーダル手法に比べて39%の成功率と42%の精度改善)、NuScenesでも競争力があることが示される。

要約(オリジナル)

3D single object tracking plays a crucial role in computer vision. Mainstream methods mainly rely on point clouds to achieve geometry matching between target template and search area. However, textureless and incomplete point clouds make it difficult for single-modal trackers to distinguish objects with similar structures. To overcome the limitations of geometry matching, we propose a Multi-modal Multi-level Fusion Tracker (MMF-Track), which exploits the image texture and geometry characteristic of point clouds to track 3D target. Specifically, we first propose a Space Alignment Module (SAM) to align RGB images with point clouds in 3D space, which is the prerequisite for constructing inter-modal associations. Then, in feature interaction level, we design a Feature Interaction Module (FIM) based on dual-stream structure, which enhances intra-modal features in parallel and constructs inter-modal semantic associations. Meanwhile, in order to refine each modal feature, we introduce a Coarse-to-Fine Interaction Module (CFIM) to realize the hierarchical feature interaction at different scales. Finally, in similarity fusion level, we propose a Similarity Fusion Module (SFM) to aggregate geometry and texture clues from the target. Experiments show that our method achieves state-of-the-art performance on KITTI (39% Success and 42% Precision gains against previous multi-modal method) and is also competitive on NuScenes.

arxiv情報

著者 Zhiheng Li,Yubo Cui,Zuoxu Gu,Zheng Fang
発行日 2023-05-11 13:34:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク