M3DBench: Let’s Instruct Large Models with Multi-modal 3D Prompts

要約

最近、自律エージェントがさらなる意思決定を容易にするために、3D 理解が普及してきました。
ただし、既存の 3D データセットとメソッドは特定のタスクに限定されていることがよくあります。
一方、大規模言語モデル (LLM) とマルチモーダル言語モデル (MLM) の最近の進歩により、一般言語および画像タスクの優れたパフォーマンスが実証されました。
したがって、より広範なタスクに対して 3D ジェネラリストとなる MLM の可能性を解き放つことは興味深いことです。
ただし、現在の MLM の研究は、大規模な 3D 命令追従データセットが不足しているため、3D タスクにはあまり焦点を当てていません。
この作業では、M3DBench と呼ばれるデータセットに従う包括的な 3D 命令を導入します。これは、次の特徴を備えています。 1) テキスト、画像、3D オブジェクト、およびその他の視覚的プロンプトが組み込まれた一般的なマルチモーダル命令をサポートします。
2) 領域レベルとシーン レベルの両方で多様な 3D タスクを統合し、現実世界の 3D 環境におけるさまざまな基本的な能力をカバーします。
3) これは、320,000 を超える命令と応答のペアを含む大規模な 3D 命令追従データセットです。
さらに、マルチモーダル 3D プロンプトを理解する際に大規模モデルのパフォーマンスを評価するための新しいベンチマークを確立します。
広範な実験により、データセットとベースラインの有効性が実証され、一般的な 3D 中心のタスクがサポートされ、将来の研究にインスピレーションを与えることができます。

要約(オリジナル)

Recently, 3D understanding has become popular to facilitate autonomous agents to perform further decisionmaking. However, existing 3D datasets and methods are often limited to specific tasks. On the other hand, recent progress in Large Language Models (LLMs) and Multimodal Language Models (MLMs) have demonstrated exceptional general language and imagery tasking performance. Therefore, it is interesting to unlock MLM’s potential to be 3D generalist for wider tasks. However, current MLMs’ research has been less focused on 3D tasks due to a lack of large-scale 3D instruction-following datasets. In this work, we introduce a comprehensive 3D instructionfollowing dataset called M3DBench, which possesses the following characteristics: 1) It supports general multimodal instructions interleaved with text, images, 3D objects, and other visual prompts. 2) It unifies diverse 3D tasks at both region and scene levels, covering a variety of fundamental abilities in real-world 3D environments. 3) It is a large-scale 3D instruction-following dataset with over 320k instruction-response pairs. Furthermore, we establish a new benchmark for assessing the performance of large models in understanding multi-modal 3D prompts. Extensive experiments demonstrate the effectiveness of our dataset and baseline, supporting general 3D-centric tasks, which can inspire future research.

arxiv情報

著者 Mingsheng Li,Xin Chen,Chi Zhang,Sijin Chen,Hongyuan Zhu,Fukun Yin,Gang Yu,Tao Chen
発行日 2023-12-17 16:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク