When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models

要約

大規模言語モデル (LLM) が進化するにつれて、3D 空間データ (3D-LLM) との統合が急速に進歩し、物理空間を理解し、対話するための前例のない機能が提供されています。
この調査では、LLM が 3D データを処理、理解、生成できるようにする方法論の包括的な概要を提供します。
コンテキスト内学習、ステップバイステップの推論、オープンな語彙能力、広範な世界知識などの LLM の独自の利点を強調し、組み込まれた人工知能 (AI) システム内での空間理解とインタラクションを大幅に進歩させる LLM の可能性を強調します。

私たちの調査は、点群から Neural Radiance Fields (NeRF) に至るまで、さまざまな 3D データ表現に及びます。
3D シーンの理解、キャプション、質問応答、対話などのタスクのための LLM との統合と、空間推論、計画、ナビゲーションのための LLM ベースのエージェントとの統合を検証します。
この論文には、3D と言語を統合する他の方法の簡単なレビューも含まれています。
この論文で提示されたメタ分析は、重大な進歩を明らかにすると同時に、3D-LLM の可能性を最大限に活用するための新しいアプローチの必要性を強調しています。
したがって、この文書では、複雑な 3D 世界を理解し、それと対話する際の 3D-LLM の機能を探索および拡張する将来の研究の方向性を示すことを目的としています。
この調査をサポートするために、私たちはトピックに関連する論文を整理してリストするプロジェクト ページを設立しました: https://github.com/ActiveVisionLab/Awesome-LLM-3D。

要約(オリジナル)

As large language models (LLMs) evolve, their integration with 3D spatial data (3D-LLMs) has seen rapid progress, offering unprecedented capabilities for understanding and interacting with physical spaces. This survey provides a comprehensive overview of the methodologies enabling LLMs to process, understand, and generate 3D data. Highlighting the unique advantages of LLMs, such as in-context learning, step-by-step reasoning, open-vocabulary capabilities, and extensive world knowledge, we underscore their potential to significantly advance spatial comprehension and interaction within embodied Artificial Intelligence (AI) systems. Our investigation spans various 3D data representations, from point clouds to Neural Radiance Fields (NeRFs). It examines their integration with LLMs for tasks such as 3D scene understanding, captioning, question-answering, and dialogue, as well as LLM-based agents for spatial reasoning, planning, and navigation. The paper also includes a brief review of other methods that integrate 3D and language. The meta-analysis presented in this paper reveals significant progress yet underscores the necessity for novel approaches to harness the full potential of 3D-LLMs. Hence, with this paper, we aim to chart a course for future research that explores and expands the capabilities of 3D-LLMs in understanding and interacting with the complex 3D world. To support this survey, we have established a project page where papers related to our topic are organized and listed: https://github.com/ActiveVisionLab/Awesome-LLM-3D.

arxiv情報

著者 Xianzheng Ma,Yash Bhalgat,Brandon Smart,Shuai Chen,Xinghui Li,Jian Ding,Jindong Gu,Dave Zhenyu Chen,Songyou Peng,Jia-Wang Bian,Philip H Torr,Marc Pollefeys,Matthias Nießner,Ian D Reid,Angel X. Chang,Iro Laina,Victor Adrian Prisacariu
発行日 2024-05-16 16:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク