SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding

要約

言語を 3D 物理環境に合わせることに焦点を当てた 3D 視覚と言語の基礎は、身体化エージェントの開発の基礎となります。
2D 領域の最近の進歩と比較して、3D シーンのグラウンディング言語はいくつかの重大な課題に直面しています。(i) オブジェクトの多様な構成、その豊富な属性、および複雑な関係による 3D シーンの固有の複雑さ。
(ii) 根拠のある学習をサポートする、ペアになった 3D 視覚と言語のデータが不足していること。
(iii) 根拠のある 3D データから知識を抽出するための統一された学習フレームワークが存在しないこと。
この研究では、屋内環境での 3D 視覚言語学習を体系的にスケールアップする可能性を検討することで、3D 視覚言語におけるこれら 3 つの主要な課題に対処することを目的としています。
最初の 100 万スケールの 3D ビジョン言語データセット、SceneVerse を紹介します。これは約 68,000 の 3D 屋内シーンを網羅し、人間による注釈とスケーラブルなシーングラフベースの生成アプローチの両方から派生した 250 万のビジョン言語ペアで構成されています。
このスケーリングにより、3D ビジョン言語学習のための統合事前トレーニング フレームワークである Ground Pre-training for Scenes (GPS) が可能になることを実証します。
広範な実験を通じて、既存のすべての 3D ビジュアル グラウンディング ベンチマークで最先端のパフォーマンスを達成することで、GPS の有効性を実証しました。
SceneVerse と GPS の膨大な可能性は、難しい 3D ビジョン言語タスクにおけるゼロショット転送実験を通じて明らかになります。
プロジェクトの Web サイト: https://scene-verse.github.io。

要約(オリジナル)

3D vision-language grounding, which focuses on aligning language with the 3D physical environment, stands as a cornerstone in the development of embodied agents. In comparison to recent advancements in the 2D domain, grounding language in 3D scenes faces several significant challenges: (i) the inherent complexity of 3D scenes due to the diverse object configurations, their rich attributes, and intricate relationships; (ii) the scarcity of paired 3D vision-language data to support grounded learning; and (iii) the absence of a unified learning framework to distill knowledge from grounded 3D data. In this work, we aim to address these three major challenges in 3D vision-language by examining the potential of systematically upscaling 3D vision-language learning in indoor environments. We introduce the first million-scale 3D vision-language dataset, SceneVerse, encompassing about 68K 3D indoor scenes and comprising 2.5M vision-language pairs derived from both human annotations and our scalable scene-graph-based generation approach. We demonstrate that this scaling allows for a unified pre-training framework, Grounded Pre-training for Scenes (GPS), for 3D vision-language learning. Through extensive experiments, we showcase the effectiveness of GPS by achieving state-of-the-art performance on all existing 3D visual grounding benchmarks. The vast potential of SceneVerse and GPS is unveiled through zero-shot transfer experiments in the challenging 3D vision-language tasks. Project website: https://scene-verse.github.io.

arxiv情報

著者 Baoxiong Jia,Yixin Chen,Huangyue Yu,Yan Wang,Xuesong Niu,Tengyu Liu,Qing Li,Siyuan Huang
発行日 2024-03-06 07:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク