Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers

要約

3D Large Language Model (LLM) の最近の進歩により、3D シーンの理解に有望な機能が実証されました。
ただし、以前の方法では、複雑なシーンを理解するための一般的な参照機能と基礎機能が不足しています。
このペーパーでは、オブジェクトレベルでシーンと対話するためのオブジェクト識別子とオブジェクト中心の表現の使用を紹介します。
具体的には、入力 3D シーンをオブジェクト提案のセットに分解し、それぞれに一意の識別子トークンが割り当てられます。これにより、ユーザー アシスタントの対話中に効率的なオブジェクト参照とグラウンディングが可能になります。
シーン言語データが不足していることを考慮して、シーンのエンベディングを、セマンティックリッチな 2D または 3D 表現から派生した一連の明示的なオブジェクトレベルのエンベディングとしてモデル化します。
オブジェクト識別子を採用することで、多様な 3D シーン言語タスクを統一された質問応答形式に変換し、タスク固有の責任者を追加することなく共同トレーニングを容易にします。
すべての下流タスクで最小限の微調整を行うことで、私たちのモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3D などのベンチマークで既存の手法を大幅に上回ります。

要約(オリジナル)

Recent advancements in 3D Large Language Models (LLMs) have demonstrated promising capabilities for 3D scene understanding. However, previous methods exhibit deficiencies in general referencing and grounding capabilities for intricate scene comprehension. In this paper, we introduce the use of object identifiers and object-centric representations to interact with scenes at the object level. Specifically, we decompose the input 3D scene into a set of object proposals, each assigned a unique identifier token, which enables efficient object referencing and grounding during user-assistant interactions. Given the scarcity of scene-language data, we model the scene embeddings as a sequence of explicit object-level embeddings, derived from semantic-rich 2D or 3D representations. By employing object identifiers, we transform diverse 3D scene-language tasks into a unified question-answering format, facilitating joint training without the need for additional task-specific heads. With minimal fine-tuning on all downstream tasks, our model significantly outperforms existing methods on benchmarks including ScanRefer, Multi3DRefer, Scan2Cap, ScanQA, and SQA3D.

arxiv情報

著者 Haifeng Huang,Yilun Chen,Zehan Wang,Rongjie Huang,Runsen Xu,Tai Wang,Luping Liu,Xize Cheng,Yang Zhao,Jiangmiao Pang,Zhou Zhao
発行日 2024-09-26 16:51:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク