要約
状況認識は、身体化された AI エージェントの 3D シーンを理解し推論するために不可欠です。
ただし、状況に応じて理解するための既存のデータセットとベンチマークは、データのモダリティ、多様性、規模、およびタスクの範囲において制限されています。
これらの制限に対処するために、私たちは、現実世界のさまざまな範囲にわたる 3D シーン グラフとビジョン言語モデル (VLM) を活用してスケーラブルに収集される大規模なマルチモーダル状況推論データセットであるマルチモーダル状況依存質問応答 (MSQA) を提案します。
3D シーン。
MSQA には、9 つの異なる質問カテゴリにわたる 251,000 の状況に応じた質問と回答のペアが含まれており、3D シーン内の複雑なシナリオをカバーします。
ベンチマークに新しいインターリーブ マルチモーダル入力設定を導入し、状況や質問の説明にテキスト、画像、点群を提供し、以前の単一モーダリティ規則 (テキストなど) のあいまいさを解決します。
さらに、ナビゲーションのためのモデルの状況に応じた推論を評価するために、マルチモーダル状況に応じた次のステップ ナビゲーション (MSNN) ベンチマークを考案しました。
MSQA と MSNN の包括的な評価では、既存のビジョン言語モデルの限界が浮き彫りになり、マルチモーダル インターリーブ入力と状況モデリングの処理の重要性が強調されます。
データ スケーリングとクロスドメイン転送に関する実験では、より強力な状況推論モデルを開発するための事前トレーニング データセットとして MSQA を活用することの有効性をさらに実証しています。
要約(オリジナル)
Situation awareness is essential for understanding and reasoning about 3D scenes in embodied AI agents. However, existing datasets and benchmarks for situated understanding are limited in data modality, diversity, scale, and task scope. To address these limitations, we propose Multi-modal Situated Question Answering (MSQA), a large-scale multi-modal situated reasoning dataset, scalably collected leveraging 3D scene graphs and vision-language models (VLMs) across a diverse range of real-world 3D scenes. MSQA includes 251K situated question-answering pairs across 9 distinct question categories, covering complex scenarios within 3D scenes. We introduce a novel interleaved multi-modal input setting in our benchmark to provide text, image, and point cloud for situation and question description, resolving ambiguity in previous single-modality convention (e.g., text). Additionally, we devise the Multi-modal Situated Next-step Navigation (MSNN) benchmark to evaluate models’ situated reasoning for navigation. Comprehensive evaluations on MSQA and MSNN highlight the limitations of existing vision-language models and underscore the importance of handling multi-modal interleaved inputs and situation modeling. Experiments on data scaling and cross-domain transfer further demonstrate the efficacy of leveraging MSQA as a pre-training dataset for developing more powerful situated reasoning models.
arxiv情報
著者 | Xiongkun Linghu,Jiangyong Huang,Xuesong Niu,Xiaojian Ma,Baoxiong Jia,Siyuan Huang |
発行日 | 2024-11-18 02:32:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google