Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness

要約

2D画像とビデオ用の大規模なマルチモーダルモデル(LMMS)の急速な開発により、これらのモデルを3Dシーンの解釈に適応させる努力が促進されました。
ただし、大規模な3Dビジョン言語データセットがないことは、重大な障害をもたらしました。
この問題に対処するために、典型的なアプローチは、3D入力レベルのシーン表現を設計することにより、3D認識を2D LMMに注入することに焦点を当てています。
この作業は新しい視点を提供します。
3D認識(Ross3D)を使用した再構築視覚命令の調整を紹介します。これは、3Dが認識している視覚的監督をトレーニング手順に統合します。
具体的には、クロスビューとグローバルビューの再構築が組み込まれています。
前者は、他のビューから重複した情報を集約することにより、マスクされたビューを再構築する必要があります。
後者の目的は、利用可能なすべてのビューから情報を集約して、鳥瞰図画像を回復し、シーン全体の包括的な概要に貢献することを目的としています。
経験的には、Ross3Dは、さまざまな3Dシーンの理解ベンチマークで最新のパフォーマンスを達成しています。
さらに重要なことは、私たちの半監督の実験は、大量の非標識3D視力のみのデータを活用する上で重要な可能性を示しています。

要約(オリジナル)

The rapid development of Large Multimodal Models (LMMs) for 2D images and videos has spurred efforts to adapt these models for interpreting 3D scenes. However, the absence of large-scale 3D vision-language datasets has posed a significant obstacle. To address this issue, typical approaches focus on injecting 3D awareness into 2D LMMs by designing 3D input-level scene representations. This work provides a new perspective. We introduce reconstructive visual instruction tuning with 3D-awareness (Ross3D), which integrates 3D-aware visual supervision into the training procedure. Specifically, it incorporates cross-view and global-view reconstruction. The former requires reconstructing masked views by aggregating overlapping information from other views. The latter aims to aggregate information from all available views to recover Bird’s-Eye-View images, contributing to a comprehensive overview of the entire scene. Empirically, Ross3D achieves state-of-the-art performance across various 3D scene understanding benchmarks. More importantly, our semi-supervised experiments demonstrate significant potential in leveraging large amounts of unlabeled 3D vision-only data.

arxiv情報

著者 Haochen Wang,Yucheng Zhao,Tiancai Wang,Haoqiang Fan,Xiangyu Zhang,Zhaoxiang Zhang
発行日 2025-04-02 16:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク