要約
現在のビジュアル基盤モデルは、非構造化 2D データのみでトレーニングされているため、オブジェクトやシーンの 3D 構造の理解が制限されています。
この研究では、3D 対応データを微調整することで新たなセマンティック特徴の品質が向上することを示します。
私たちは、セマンティック 2D 特徴を効率的な 3D ガウス表現にリフトアップする方法を設計します。これにより、任意のビューで再レンダリングできるようになります。
レンダリングされた 3D 認識機能を使用して、そのような 3D 認識を 2D 基礎モデルに転送するための微調整戦略を設計します。
このように微調整されたモデルが、単純な線形プローブを通じてセマンティック セグメンテーションと深度推定における下流タスクのパフォーマンスを容易に向上させる機能を生成することを実証します。
特に、単一の屋内データセットで微調整されていますが、この改善はさまざまな屋内データセットやドメイン外データセットに適用可能です。
私たちの研究が、コミュニティが 2D 基礎モデルをトレーニングする際に 3D 認識を導入することを検討することを奨励することを願っています。
プロジェクトページ: https://ywyue.github.io/FiT3D。
要約(オリジナル)
Current visual foundation models are trained purely on unstructured 2D data, limiting their understanding of 3D structure of objects and scenes. In this work, we show that fine-tuning on 3D-aware data improves the quality of emerging semantic features. We design a method to lift semantic 2D features into an efficient 3D Gaussian representation, which allows us to re-render them for arbitrary views. Using the rendered 3D-aware features, we design a fine-tuning strategy to transfer such 3D awareness into a 2D foundation model. We demonstrate that models fine-tuned in that way produce features that readily improve downstream task performance in semantic segmentation and depth estimation through simple linear probing. Notably, though fined-tuned on a single indoor dataset, the improvement is transferable to a variety of indoor datasets and out-of-domain datasets. We hope our study encourages the community to consider injecting 3D awareness when training 2D foundation models. Project page: https://ywyue.github.io/FiT3D.
arxiv情報
著者 | Yuanwen Yue,Anurag Das,Francis Engelmann,Siyu Tang,Jan Eric Lenssen |
発行日 | 2024-07-29 17:59:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google