ShapeLLM: Universal 3D Object Understanding for Embodied Interaction

要約

この論文では、具現化されたインタラクション用に設計された初の 3D マルチモーダル大規模言語モデル (LLM) である ShapeLLM について紹介し、3D 点群と言語を使用した普遍的な 3D オブジェクトの理解を探ります。
ShapeLLM は、ReCon を ReCon++ に拡張することにより、改良された 3D エンコーダーに基づいて構築されており、ジオメトリの理解を強化するためのマルチビュー画像蒸留の恩恵を受けています。
ReCon++ を LLM の 3D 点群入力エンコーダとして利用することで、ShapeLLM は構築された命令に従うデータでトレーニングされ、人間が新たに厳選した評価ベンチマークである 3D MM-Vet でテストされます。
ReCon++ と ShapeLLM は、3D ジオメトリの理解と、身体化された視覚的なグラウンディングなど、言語に統一された 3D インタラクション タスクにおいて最先端のパフォーマンスを実現します。

要約(オリジナル)

This paper presents ShapeLLM, the first 3D Multimodal Large Language Model (LLM) designed for embodied interaction, exploring a universal 3D object understanding with 3D point clouds and languages. ShapeLLM is built upon an improved 3D encoder by extending ReCon to ReCon++ that benefits from multi-view image distillation for enhanced geometry understanding. By utilizing ReCon++ as the 3D point cloud input encoder for LLMs, ShapeLLM is trained on constructed instruction-following data and tested on our newly human-curated evaluation benchmark, 3D MM-Vet. ReCon++ and ShapeLLM achieve state-of-the-art performance in 3D geometry understanding and language-unified 3D interaction tasks, such as embodied visual grounding.

arxiv情報

著者 Zekun Qi,Runpei Dong,Shaochen Zhang,Haoran Geng,Chunrui Han,Zheng Ge,He Wang,Li Yi,Kaisheng Ma
発行日 2024-03-06 15:11:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク