Chat-3D v2: Bridging 3D Scene and Large Language Models with Object Identifiers

要約

最近の研究では、3D シーン内で困難なタスクを処理する際のラージ言語モデル (LLM) の大きな可能性が証明されています。
ただし、現在のモデルはオブジェクト中心のタスクに対処するように制約されており、各質問と回答のペアは個々のオブジェクトのみに焦点を当てています。
実際のアプリケーションでは、ユーザーは複数のオブジェクトを含むクエリを発行したり、さまざまなオブジェクトを正確に参照する回答を期待したりすることがあります。
会話中にオブジェクトを自由に参照するためのオブジェクト識別子の使用を導入します。
この解決策は単純そうに見えますが、次の 2 つの主な課題があります。 1) 各オブジェクトとその識別子の間に信頼できる 1 対 1 の対応関係を確立するにはどうすればよいでしょうか。
2) 数十のオブジェクト間の複雑な空間関係を LLM の埋め込み空間に組み込むにはどうすればよいですか?
これらの課題に対処するために、各オブジェクトの属性認識トークンと関係認識トークンを学習する 2 段階の調整方法を提案します。
これらのトークンは、オブジェクトの属性と、3D シーン内の周囲のオブジェクトとの空間的関係をキャプチャします。
調整が確立されたら、命令チューニングを使用してさまざまな下流タスクでモデルを微調整できます。
ScanQA、ScanRefer、Nr3D/Sr3D などの従来のデータセットに対して行われた実験は、私たちが提案した方法の有効性を示しています。
さらに、GPT-4 のアシスタントを使用して、豊富なオブジェクト識別子で注釈が付けられた 3D シーン キャプション データセットを作成します。
このデータセットは、効果的なオブジェクトの参照と正確なシーンの理解におけるオブジェクト識別子の機能をさらに調査することを目的としています。

要約(オリジナル)

Recent research has evidenced the significant potentials of Large Language Models (LLMs) in handling challenging tasks within 3D scenes. However, current models are constrained to addressing object-centric tasks, where each question-answer pair focuses solely on an individual object. In real-world applications, users may pose queries involving multiple objects or expect for answers that precisely reference various objects. We introduce the use of object identifiers to freely reference objects during a conversation. While this solution appears straightforward, it presents two main challenges: 1) How to establish a reliable one-to-one correspondence between each object and its identifier? 2) How to incorporate complex spatial relationships among dozens of objects into the embedding space of the LLM? To address these challenges, we propose a two-stage alignment method, which involves learning an attribute-aware token and a relation-aware token for each object. These tokens capture the object’s attributes and spatial relationships with surrounding objects in the 3D scene. Once the alignment is established, we can fine-tune our model on various downstream tasks using instruction tuning. Experiments conducted on traditional datasets like ScanQA, ScanRefer, and Nr3D/Sr3D showcase the effectiveness of our proposed method. Additionally, we create a 3D scene captioning dataset annotated with rich object identifiers, with the assistant of GPT-4. This dataset aims to further explore the capability of object identifiers in effective object referencing and precise scene understanding.

arxiv情報

著者 Haifeng Huang,Zehan Wang,Rongjie Huang,Luping Liu,Xize Cheng,Yang Zhao,Tao Jin,Zhou Zhao
発行日 2023-12-13 14:27:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク