要約
3D 空間で複雑な視覚言語推論タスクを実行できることは、家庭用ロボットや人間中心の身体型 AI の開発における重要なマイルストーンとなります。
この研究では、3D ビジョン言語推論における重要かつ明確な課題が状況認識であり、これには 2 つの重要なコンポーネントが組み込まれていることを示します。 (1) 自律エージェントは、言語プロンプトに基づいて自己位置を確立します。
(2) エージェントは、計算された立場の観点から自由形式の質問に回答します。
この課題に対処するために、3D ビジョン言語推論のためのエンドツーエンドの状況接地モデルである SIG3D を導入します。
我々は 3D シーンをスパースなボクセル表現にトークン化し、言語に基づいた状況推定器と、それに続く状況に応じた質問応答モジュールを提案します。
SQA3D および ScanQA データセットの実験では、SIG3D が状況推定と質問応答において最先端のモデルよりも大幅に優れていることが示されています (例: 状況推定精度が 30% 以上向上)。
その後の分析により、アーキテクチャ設計の選択が裏付けられ、視覚的トークンとテキストトークンの異なる機能が調査され、3D 質問応答の領域における状況認識の重要性が強調されます。
要約(オリジナル)
Being able to carry out complicated vision language reasoning tasks in 3D space represents a significant milestone in developing household robots and human-centered embodied AI. In this work, we demonstrate that a critical and distinct challenge in 3D vision language reasoning is situational awareness, which incorporates two key components: (1) The autonomous agent grounds its self-location based on a language prompt. (2) The agent answers open-ended questions from the perspective of its calculated position. To address this challenge, we introduce SIG3D, an end-to-end Situation-Grounded model for 3D vision language reasoning. We tokenize the 3D scene into sparse voxel representation and propose a language-grounded situation estimator, followed by a situated question answering module. Experiments on the SQA3D and ScanQA datasets show that SIG3D outperforms state-of-the-art models in situation estimation and question answering by a large margin (e.g., an enhancement of over 30% on situation estimation accuracy). Subsequent analysis corroborates our architectural design choices, explores the distinct functions of visual and textual tokens, and highlights the importance of situational awareness in the domain of 3D question answering.
arxiv情報
著者 | Yunze Man,Liang-Yan Gui,Yu-Xiong Wang |
発行日 | 2024-06-26 17:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google