SceneGPT: A Language Model for 3D Scene Understanding

要約

3D 教師ありトレーニングや大規模なトレーニング体制のためのデータ ソースが不足しているため、3D シーンを理解して推論できるモデルを構築することは困難です。
この研究では、事前にトレーニングされた言語モデルの知識を、3D の事前トレーニングなしで 3D シーンの理解にどのように活用できるかを考えます。
この研究の目的は、事前トレーニングされた LLM が 3D 空間での推論に必要な事前知識/知識を持っているかどうか、および 3D での汎用の空間推論とオブジェクトの理解に使用できるように、どのようにそれらを促すことができるかを確立することです。
この目的を達成するために、トレーニングや明示的な 3D 監視なしで 3D 空間推論を実行できる LLM ベースのシーン理解システムである SceneGPT を紹介します。
私たちのフレームワークの主要なコンポーネントは次のとおりです。 1) シーン表現として機能する 3D シーン グラフ、シーン内のオブジェクトとその空間的関係をエンコードする 2) 3D 空間推論のコンテキスト学習で適応できる事前トレーニング済み LLM

私たちは、オブジェクトのセマンティクス、物理的特性とアフォーダンス (オブジェクトレベル)、および空間理解 (シーンレベル) を含むオブジェクトとシーンの理解タスクに関してフレームワークを定性的に評価します。

要約(オリジナル)

Building models that can understand and reason about 3D scenes is difficult owing to the lack of data sources for 3D supervised training and large-scale training regimes. In this work we ask – How can the knowledge in a pre-trained language model be leveraged for 3D scene understanding without any 3D pre-training. The aim of this work is to establish whether pre-trained LLMs possess priors/knowledge required for reasoning in 3D space and how can we prompt them such that they can be used for general purpose spatial reasoning and object understanding in 3D. To this end, we present SceneGPT, an LLM based scene understanding system which can perform 3D spatial reasoning without training or explicit 3D supervision. The key components of our framework are – 1) a 3D scene graph, that serves as scene representation, encoding the objects in the scene and their spatial relationships 2) a pre-trained LLM that can be adapted with in context learning for 3D spatial reasoning. We evaluate our framework qualitatively on object and scene understanding tasks including object semantics, physical properties and affordances (object-level) and spatial understanding (scene-level).

arxiv情報

著者 Shivam Chandhok
発行日 2024-08-13 14:26:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク