MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations

要約

LLMSの出現と他のデータモダリティとの統合により、マルチモーダル3D知覚は、物理的な世界への接続性により、より多くの注目を集め、急速な進歩を遂げます。
ただし、既存のデータセットによって制限されていた以前の作業は、主に3Dシーンでオブジェクトのプロパティまたはオブジェクト間の空間関係を理解することに焦点を当てています。
この問題に取り組むために、このペーパーでは、これまでに最初に最大のマルチモーダル3Dシーンデータセットと、階層的な接地言語アノテーションであるMMSCANを使用してベンチマークを構築します。
これは、地域からオブジェクトレベル、単一のターゲットからターゲット間の関係まで、トップダウンロジックに基づいて構築され、空間および属性の理解の全体的な側面をカバーします。
全体的なパイプラインには、注釈を効率的に初期化するための慎重に設計されたプロンプトを介して強力なVLMSが組み込まれ、さらにはループでの人間の修正が含まれ、注釈が自然で正しく、包括的であることを確認します。
既存の3Dスキャンデータに基づいて構築された結果のマルチモーダル3Dデータセットには、109Kオブジェクトと7.7k領域の1.4mメタアノテーションキャプション、および3D視覚的接地と質問回答ベンチマークの3.04mを超える多様なサンプルが含まれます。
ベンチマークの代表的なベースラインを評価し、さまざまな面でその機能を分析し、将来対処する重要な問題を紹介します。
さらに、この高品質のデータセットを使用して、最先端の3D視覚接地とLLMSをトレーニングし、既存のベンチマークとワイルド内評価の両方で顕著なパフォーマンス改善を取得します。
コード、データセット、およびベンチマークは、https://github.com/openrobotlab/embodiedscanで入手できます。

要約(オリジナル)

With the emergence of LLMs and their integration with other data modalities, multi-modal 3D perception attracts more attention due to its connectivity to the physical world and makes rapid progress. However, limited by existing datasets, previous works mainly focus on understanding object properties or inter-object spatial relationships in a 3D scene. To tackle this problem, this paper builds the first largest ever multi-modal 3D scene dataset and benchmark with hierarchical grounded language annotations, MMScan. It is constructed based on a top-down logic, from region to object level, from a single target to inter-target relationships, covering holistic aspects of spatial and attribute understanding. The overall pipeline incorporates powerful VLMs via carefully designed prompts to initialize the annotations efficiently and further involve humans’ correction in the loop to ensure the annotations are natural, correct, and comprehensive. Built upon existing 3D scanning data, the resulting multi-modal 3D dataset encompasses 1.4M meta-annotated captions on 109k objects and 7.7k regions as well as over 3.04M diverse samples for 3D visual grounding and question-answering benchmarks. We evaluate representative baselines on our benchmarks, analyze their capabilities in different aspects, and showcase the key problems to be addressed in the future. Furthermore, we use this high-quality dataset to train state-of-the-art 3D visual grounding and LLMs and obtain remarkable performance improvement both on existing benchmarks and in-the-wild evaluation. Codes, datasets, and benchmarks will be available at https://github.com/OpenRobotLab/EmbodiedScan.

arxiv情報

著者 Ruiyuan Lyu,Jingli Lin,Tai Wang,Shuai Yang,Xiaohan Mao,Yilun Chen,Runsen Xu,Haifeng Huang,Chenming Zhu,Dahua Lin,Jiangmiao Pang
発行日 2025-06-09 07:53:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク