要約
3D大手言語モデル(3DLLMS)の最近の進歩は、3D現実世界の汎用エージェントの構築における可能性を強調していますが、高品質の堅牢な命令学転換データがないため、課題は残っており、差別的な力と一般化が限られています
3dllmsの。
このホワイトペーパーでは、新しいデータエンジンであるRobust Instruction Generation(RIG)エンジンによって生成された大規模な命令に従うデータを訓練した強力な3DLLMであるRobin3Dを紹介します。
RIGは2つの重要な命令データを生成します。1)敵対的な命令に従うデータ。これには、モデルの識別的理解を高めるためのネガティブとポジティブの混合サンプルが特徴です。
2)モデルの一般化を強化するためのさまざまな命令スタイルを含む多様な命令に従うデータ。
その結果、344Kの逆境サンプル、508K多様なサンプル、165Kベンチマークトレーニングセットのサンプルで構成される100万件の指導に従うデータを構築します。
これらの複雑な命令をより適切に処理するために、Robin3Dは最初に、空間的理解を強化するために関連性を高めるプロジェクターを組み込み、次にID-Featureボンディングを通じて参照と接地能力を強化します。
Robin3Dは、タスク固有の微調整を必要とせずに、5つの広く使用されている3Dマルチモーダル学習ベンチマークで以前のメソッドよりも一貫して優れています。
特に、接地タスクの7.8 \%の改善(Multi3Drefer)とキャプションタスクで6.9 \%の改善(SCAN2CAP)を達成します。
要約(オリジナル)
Recent advancements in 3D Large Language Models (3DLLMs) have highlighted their potential in building general-purpose agents in the 3D real world, yet challenges remain due to the lack of high-quality robust instruction-following data, leading to limited discriminative power and generalization of 3DLLMs. In this paper, we introduce Robin3D, a powerful 3DLLM trained on large-scale instruction-following data generated by our novel data engine, Robust Instruction Generation (RIG) engine. RIG generates two key instruction data: 1) the Adversarial Instruction-following data, which features mixed negative and positive samples to enhance the model’s discriminative understanding. 2) the Diverse Instruction-following data, which contains various instruction styles to enhance model’s generalization. As a result, we construct 1 million instruction-following data, consisting of 344K Adversarial samples, 508K Diverse samples, and 165K benchmark training set samples. To better handle these complex instructions, Robin3D first incorporates Relation-Augmented Projector to enhance spatial understanding, and then strengthens the object referring and grounding ability through ID-Feature Bonding. Robin3D consistently outperforms previous methods across five widely-used 3D multimodal learning benchmarks, without the need for task-specific fine-tuning. Notably, we achieve a 7.8\% improvement in the grounding task (Multi3DRefer) and a 6.9\% improvement in the captioning task (Scan2Cap).
arxiv情報
著者 | Weitai Kang,Haifeng Huang,Yuzhang Shang,Mubarak Shah,Yan Yan |
発行日 | 2025-02-20 18:06:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google