MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations

要約

LLM の出現と他のデータ モダリティとの統合により、物理世界との接続性によりマルチモーダル 3D 認識がより注目を集め、急速に進歩しています。
ただし、既存のデータセットによる制限により、これまでの研究は主に 3D シーンにおけるオブジェクトのプロパティやオブジェクト間の空間関係を理解することに重点を置いていました。
この問題に取り組むために、この論文では、階層的な根拠のある言語アノテーションを備えた史上最大のマルチモーダル 3D シーン データセットとベンチマーク、MMScan を構築します。
これは、領域からオブジェクト レベル、単一のターゲットからターゲット間の関係に至るトップダウン ロジックに基づいて構築されており、空間および属性の理解の全体的な側面をカバーしています。
パイプライン全体には、注釈を効率的に初期化するための慎重に設計されたプロンプトを介して強力な VLM が組み込まれており、さらに注釈が自然で正しく、包括的なものであることを保証するためにループ内で人間による修正が含まれます。
既存の 3D スキャン データに基づいて構築されたマルチモーダル 3D データセットには、109,000 個のオブジェクトと 7,7,000 個の領域に関する 140 万個のメタアノテーション付きキャプションのほか、3D 視覚基礎および質問応答ベンチマーク用の 304 万個を超える多様なサンプルが含まれています。
私たちはベンチマークで代表的なベースラインを評価し、さまざまな側面でその機能を分析し、将来的に対処すべき主要な問題を示します。
さらに、この高品質のデータセットを使用して最先端の 3D ビジュアル グラウンディングと LLM をトレーニングし、既存のベンチマークと実際の評価の両方で顕著なパフォーマンスの向上を実現しました。
コード、データセット、ベンチマークは https://github.com/OpenRobotLab/EmbodiedScan で入手できます。

要約(オリジナル)

With the emergence of LLMs and their integration with other data modalities, multi-modal 3D perception attracts more attention due to its connectivity to the physical world and makes rapid progress. However, limited by existing datasets, previous works mainly focus on understanding object properties or inter-object spatial relationships in a 3D scene. To tackle this problem, this paper builds the first largest ever multi-modal 3D scene dataset and benchmark with hierarchical grounded language annotations, MMScan. It is constructed based on a top-down logic, from region to object level, from a single target to inter-target relationships, covering holistic aspects of spatial and attribute understanding. The overall pipeline incorporates powerful VLMs via carefully designed prompts to initialize the annotations efficiently and further involve humans’ correction in the loop to ensure the annotations are natural, correct, and comprehensive. Built upon existing 3D scanning data, the resulting multi-modal 3D dataset encompasses 1.4M meta-annotated captions on 109k objects and 7.7k regions as well as over 3.04M diverse samples for 3D visual grounding and question-answering benchmarks. We evaluate representative baselines on our benchmarks, analyze their capabilities in different aspects, and showcase the key problems to be addressed in the future. Furthermore, we use this high-quality dataset to train state-of-the-art 3D visual grounding and LLMs and obtain remarkable performance improvement both on existing benchmarks and in-the-wild evaluation. Codes, datasets, and benchmarks will be available at https://github.com/OpenRobotLab/EmbodiedScan.

arxiv情報

著者 Ruiyuan Lyu,Tai Wang,Jingli Lin,Shuai Yang,Xiaohan Mao,Yilun Chen,Runsen Xu,Haifeng Huang,Chenming Zhu,Dahua Lin,Jiangmiao Pang
発行日 2024-06-13 17:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク