要約
言語と 3D 認識の統合は、物理世界を理解し、相互作用する身体化されたエージェントやロボットを開発するために重要です。
大規模言語モデル (LLM) は優れた言語理解および生成機能を実証していますが、3D 環境への適応 (3D-LLM) はまだ初期段階にあります。
主な課題は、言語と 3D シーンの間の密な基盤を提供する大規模なデータセットが存在しないことです。
この論文では、40,087 の家庭シーンと 620 万の高密度で根拠のあるシーン言語命令を組み合わせた先駆的な大規模データセットである 3D-GRAND を紹介します。
私たちの結果は、3D-GRAND を使用した命令チューニングがグラウンディング機能を大幅に強化し、3D-LLM の幻覚を軽減することを示しています。
私たちの貢献の一環として、私たちは 3D-LLM の幻覚を体系的に評価し、将来のモデル間の公正な比較を可能にする包括的なベンチマーク 3D-POPE を提案します。
私たちの実験では、データセットのサイズと 3D-LLM のパフォーマンス間のスケーリング効果が明らかになり、身体化された AI 研究の進歩における大規模な 3D テキスト データセットの重要な役割が強調されています。
特に、私たちの結果は、効果的なシミュレーションからリアルへの転送のための初期の信号を示しており、大規模な合成データでトレーニングされたモデルが現実世界の 3D スキャンで適切に実行できることを示しています。
3D-GRAND と 3D-POPE を通じて、私たちは身体化された AI コミュニティに必須のリソースと洞察を提供し、より信頼性が高く根拠に基づいた 3D-LLM の準備を整えることを目指しています。
プロジェクト Web サイト: https://3d-grand.github.io
要約(オリジナル)
The integration of language and 3D perception is crucial for developing embodied agents and robots that comprehend and interact with the physical world. While large language models (LLMs) have demonstrated impressive language understanding and generation capabilities, their adaptation to 3D environments (3D-LLMs) remains in its early stages. A primary challenge is the absence of large-scale datasets that provide dense grounding between language and 3D scenes. In this paper, we introduce 3D-GRAND, a pioneering large-scale dataset comprising 40,087 household scenes paired with 6.2 million densely-grounded scene-language instructions. Our results show that instruction tuning with 3D-GRAND significantly enhances grounding capabilities and reduces hallucinations in 3D-LLMs. As part of our contributions, we propose a comprehensive benchmark 3D-POPE to systematically evaluate hallucination in 3D-LLMs, enabling fair comparisons among future models. Our experiments highlight a scaling effect between dataset size and 3D-LLM performance, emphasizing the critical role of large-scale 3D-text datasets in advancing embodied AI research. Notably, our results demonstrate early signals for effective sim-to-real transfer, indicating that models trained on large synthetic data can perform well on real-world 3D scans. Through 3D-GRAND and 3D-POPE, we aim to equip the embodied AI community with essential resources and insights, setting the stage for more reliable and better-grounded 3D-LLMs. Project website: https://3d-grand.github.io
arxiv情報
著者 | Jianing Yang,Xuweiyi Chen,Nikhil Madaan,Madhavan Iyengar,Shengyi Qian,David F. Fouhey,Joyce Chai |
発行日 | 2024-06-07 17:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google