3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

要約

言語の統合と3D認識は、物理的な世界を理解し、相互作用する具体化されたエージェントとロボットにとって重要です。
大規模な言語モデル(LLM)は印象的な言語の理解と生成能力を実証していますが、3D環境(3D-LLM)への適応は初期段階に残っています。
主な課題は、言語と3Dシーンの間に密集した接地を持つ大規模なデータセットがないことです。
3Dグランドを紹介します。これは、40,087の家庭用シーンと620万の密集したシーン言語の指示を組み合わせた先駆的な大規模なデータセットを紹介します。
我々の結果は、3D粒を使用した指示の調整により、接地能力が大幅に向上し、3D-LLMの幻覚が減少することが示されています。
貢献の一環として、3D-LLMの幻覚を体系的に評価し、モデルの公正な比較を可能にするための包括的なベンチマーク3Dポープを提案します。
私たちの実験は、データセットサイズと3D-LLMパフォーマンスの間のスケーリング効果を強調し、具体化されたAI研究のための大規模な3Dテキストデータセットの重要性を強調しています。
我々の結果は、効果的なSIMからリアルへの移転の初期シグナルを示しており、大規模な合成データでトレーニングされたモデルが実際の3Dスキャンでうまく機能することを示しています。
3Dグランドと3Dポープを通じて、具体化されたAIコミュニティにリソースと洞察を装備して、より信頼性が高く、より良く根拠のある3D-LLMにつながることを目指しています。
プロジェクトWebサイト:https://3d-grand.github.io

要約(オリジナル)

The integration of language and 3D perception is crucial for embodied agents and robots that comprehend and interact with the physical world. While large language models (LLMs) have demonstrated impressive language understanding and generation capabilities, their adaptation to 3D environments (3D-LLMs) remains in its early stages. A primary challenge is a lack of large-scale datasets with dense grounding between language and 3D scenes. We introduce 3D-GRAND, a pioneering large-scale dataset comprising 40,087 household scenes paired with 6.2 million densely-grounded scene-language instructions. Our results show that instruction tuning with 3D-GRAND significantly enhances grounding capabilities and reduces hallucinations in 3D-LLMs. As part of our contributions, we propose a comprehensive benchmark 3D-POPE to systematically evaluate hallucination in 3D-LLMs, enabling fair comparisons of models. Our experiments highlight a scaling effect between dataset size and 3D-LLM performance, emphasizing the importance of large-scale 3D-text datasets for embodied AI research. Our results demonstrate early signals for effective sim-to-real transfer, indicating that models trained on large synthetic data can perform well on real-world 3D scans. Through 3D-GRAND and 3D-POPE, we aim to equip the embodied AI community with resources and insights to lead to more reliable and better-grounded 3D-LLMs. Project website: https://3d-grand.github.io

arxiv情報

著者 Jianing Yang,Xuweiyi Chen,Nikhil Madaan,Madhavan Iyengar,Shengyi Qian,David F. Fouhey,Joyce Chai
発行日 2025-03-20 23:06:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク