LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding, Reasoning, and Planning

要約

大規模マルチモーダル モデル (LMM) の最近の進歩により、人間とマシンの相互作用におけるさまざまなアプリケーションが可能になりました。
しかし、複雑で多様な 3D 環境で理解、推論、計画できる LMM の開発は、特に 3D シーンの順列不変点群 3D 表現を理解する需要を考慮すると、依然として困難な課題です。
既存の作品は、マルチビュー画像の助けを求め、2D フィーチャを 3D シーン表現として 3D 空間に投影します。
ただし、これは膨大な計算オーバーヘッドとパフォーマンスの低下につながります。
この論文では、点群を直接入力として受け取り、テキストによる指示と視覚的なプロンプトの両方に応答するラージ言語 3D アシスタントである LL3DA を紹介します。
これは、LMM が人間のインタラクションをよりよく理解するのに役立ち、さらに、乱雑な 3D シーンのあいまいさを取り除くのに役立ちます。
実験の結果、LL3DA は顕著な結果を達成し、3D 高密度キャプションと 3D 質問応答の両方でさまざまな 3D 視覚言語モデルを上回りました。

要約(オリジナル)

Recent advances in Large Multimodal Models (LMM) have made it possible for various applications in human-machine interactions. However, developing LMMs that can comprehend, reason, and plan in complex and diverse 3D environments remains a challenging topic, especially considering the demand for understanding permutation-invariant point cloud 3D representations of the 3D scene. Existing works seek help from multi-view images, and project 2D features to 3D space as 3D scene representations. This, however, leads to huge computational overhead and performance degradation. In this paper, we present LL3DA, a Large Language 3D Assistant that takes point cloud as direct input and respond to both textual-instructions and visual-prompts. This help LMMs better comprehend human interactions and further help to remove the ambiguities in cluttered 3D scenes. Experiments show that LL3DA achieves remarkable results, and surpasses various 3D vision-language models on both 3D Dense Captioning and 3D Question Answering.

arxiv情報

著者 Sijin Chen,Xin Chen,Chi Zhang,Mingsheng Li,Gang Yu,Hao Fei,Hongyuan Zhu,Jiayuan Fan,Tao Chen
発行日 2023-11-30 16:00:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク