3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment

要約

3D ビジョン言語グラウンディング (3D-VL) は、身体化された知性を実現するために不可欠な、3D 物理世界と自然言語を結び付けることを目的とした新興分野です。
現在の 3D-VL モデルは、洗練されたモジュール、補助損失、最適化トリックに大きく依存しており、シンプルで統一されたモデルが必要です。
この論文では、さまざまな下流タスクに簡単に適応できる、3D ビジョンおよびテキスト配置用の事前トレーニング済みトランスフォーマーである 3D-VisTA を提案します。
3D-VisTA は、洗練されたタスク固有の設計を必要とせずに、シングルモーダル モデリングとマルチモーダル フュージョンの両方にセルフ アテンション レイヤーを利用するだけです。
3D-VL タスクのパフォーマンスをさらに強化するために、3D-VL 事前トレーニング用の初の大規模 3D シーンとテキストのペア データセットである ScanScribe を構築しました。
ScanScribe には、ScanNet および 3R-Scan データセットから生成された 1,185 の固有の屋内シーンに対する 2,995 の RGB-D スキャンと、既存の 3D-VL タスク、テンプレート、および GPT-3 から生成されたペアの 278K のシーン記述が含まれています。
3D-VisTA は、マスクされた言語/オブジェクト モデリングおよびシーンとテキストのマッチングを通じて、ScanScribe 上で事前トレーニングされています。
視覚的なグラウンディングや緻密なキャプションから質問応答や状況に応じた推論に至るまで、さまざまな 3D-VL タスクで最先端の結果が得られます。
さらに、3D-VisTA は優れたデータ効率を実証し、下流タスクの微調整中に注釈が限られている場合でも強力なパフォーマンスを実現します。

要約(オリジナル)

3D vision-language grounding (3D-VL) is an emerging field that aims to connect the 3D physical world with natural language, which is crucial for achieving embodied intelligence. Current 3D-VL models rely heavily on sophisticated modules, auxiliary losses, and optimization tricks, which calls for a simple and unified model. In this paper, we propose 3D-VisTA, a pre-trained Transformer for 3D Vision and Text Alignment that can be easily adapted to various downstream tasks. 3D-VisTA simply utilizes self-attention layers for both single-modal modeling and multi-modal fusion without any sophisticated task-specific design. To further enhance its performance on 3D-VL tasks, we construct ScanScribe, the first large-scale 3D scene-text pairs dataset for 3D-VL pre-training. ScanScribe contains 2,995 RGB-D scans for 1,185 unique indoor scenes originating from ScanNet and 3R-Scan datasets, along with paired 278K scene descriptions generated from existing 3D-VL tasks, templates, and GPT-3. 3D-VisTA is pre-trained on ScanScribe via masked language/object modeling and scene-text matching. It achieves state-of-the-art results on various 3D-VL tasks, ranging from visual grounding and dense captioning to question answering and situated reasoning. Moreover, 3D-VisTA demonstrates superior data efficiency, obtaining strong performance even with limited annotations during downstream task fine-tuning.

arxiv情報

著者 Ziyu Zhu,Xiaojian Ma,Yixin Chen,Zhidong Deng,Siyuan Huang,Qing Li
発行日 2023-08-08 15:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク