要約
3Dビジョンと空間的推論は、特に2D画像に基づいた従来の視覚的推論と比較した場合、3次元の世界を正確に知覚するために好ましいと長い間認識されてきました。
高品質の3Dデータを収集するのが難しいため、この分野での研究は最近勢いを獲得しました。
強力な大手言語モデル(LLMS)の出現により、過去数年にわたって3Dビジョン用のマルチモーダルLLMが開発されました。
ただし、これらのモデルのほとんどは、主に3DデータのVisionエンコーダーに焦点を当てています。
このホワイトペーパーでは、既存の密に活性化されたLLMSを、マルチモーダルデータ処理に効果的であることが証明されているエクスパー(MOE)モデルに変換することを提案します。
これらのモデルの命令に従う機能を活用することに加えて、さらに、新しい修正フロー拡散スケジューラを使用する拡散ヘッド、ポーズディットを取り付けることにより、具体化されたタスク計画を可能にします。
3D質問応答とタスク計画タスクの実験結果は、3D-MoEフレームワークが、アクティブ化されたパラメーターが少なくなるとパフォーマンスが向上することを示しています。
要約(オリジナル)
3D vision and spatial reasoning have long been recognized as preferable for accurately perceiving our three-dimensional world, especially when compared with traditional visual reasoning based on 2D images. Due to the difficulties in collecting high-quality 3D data, research in this area has only recently gained momentum. With the advent of powerful large language models (LLMs), multi-modal LLMs for 3D vision have been developed over the past few years. However, most of these models focus primarily on the vision encoder for 3D data. In this paper, we propose converting existing densely activated LLMs into mixture-of-experts (MoE) models, which have proven effective for multi-modal data processing. In addition to leveraging these models’ instruction-following capabilities, we further enable embodied task planning by attaching a diffusion head, Pose-DiT, that employs a novel rectified flow diffusion scheduler. Experimental results on 3D question answering and task-planning tasks demonstrate that our 3D-MoE framework achieves improved performance with fewer activated parameters.
arxiv情報
著者 | Yueen Ma,Yuzheng Zhuang,Jianye Hao,Irwin King |
発行日 | 2025-01-28 04:31:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google