MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding

要約

3D 視覚的グラウンディングには、自然言語の説明と 3D 空間内の対応するオブジェクトとの一致が含まれます。
既存の方法は、オブジェクト認識の精度の点で課題に直面することが多く、複雑な言語クエリ、特に複数のアンカーを含む記述やビューに依存する記述の解釈に苦労することがよくあります。
これに応えて、MiKASA (Multi-Key-Anchor Scene-Aware) Transformer を紹介します。
当社の新しいエンドツーエンドのトレーニング済みモデルは、自己注意ベースのシーン認識オブジェクト エンコーダーと独自のマルチキー アンカー技術を統合し、オブジェクト認識の精度と空間関係の理解を強化します。
さらに、MiKASA は意思決定の説明可能性を向上させ、エラーの診断を容易にします。
私たちのモデルは、Sr3D データセットと Nr3D データセットの両方の Referit3D チャレンジで最高の総合精度を達成し、特に視点依存の記述が必要なカテゴリで大差で優れています。
このプロジェクトのソース コードと追加リソースは、GitHub で入手できます: https://github.com/birdy666/MiKASA-3DVG

要約(オリジナル)

3D visual grounding involves matching natural language descriptions with their corresponding objects in 3D spaces. Existing methods often face challenges with accuracy in object recognition and struggle in interpreting complex linguistic queries, particularly with descriptions that involve multiple anchors or are view-dependent. In response, we present the MiKASA (Multi-Key-Anchor Scene-Aware) Transformer. Our novel end-to-end trained model integrates a self-attention-based scene-aware object encoder and an original multi-key-anchor technique, enhancing object recognition accuracy and the understanding of spatial relationships. Furthermore, MiKASA improves the explainability of decision-making, facilitating error diagnosis. Our model achieves the highest overall accuracy in the Referit3D challenge for both the Sr3D and Nr3D datasets, particularly excelling by a large margin in categories that require viewpoint-dependent descriptions. The source code and additional resources for this project are available on GitHub: https://github.com/birdy666/MiKASA-3DVG

arxiv情報

著者 Chun-Peng Chang,Shaoxiang Wang,Alain Pagani,Didier Stricker
発行日 2024-03-11 15:02:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク