LIFT-GS: Cross-Scene Render-Supervised Distillation for 3D Language Grounding

要約

3Dビジョンと言語の理解モデルをトレーニングするためのアプローチは、3Dで予測を行うが、3Dラベルを必要とすることはなく、2D損失と微分レンダリングを使用して2Dでのみ監視されることはないフィードフォワードモデルをトレーニングすることです。
このアプローチは、ビジョン言語の理解のために新しいものです。
再構成を「潜在変数」として扱うことにより、ネットワークアーキテクチャに不必要な制約を配置せずに出力をレンダリングできます(たとえば、デコーダーのみのモデルで使用できます)。
トレーニングには、画像とカメラのポーズと2Dラベルのみが必要です。
前処理された2Dモデルから擬似ラベルを使用して、2Dラベルの必要性を削除できることさえ示しています。
これを実証し、ネットワークを取得し、3Dビジョン言語理解タスクのために微調整します。
このアプローチは、3Dビジョン言語の接地のベースライン/SOTAを上回ることを示し、他の3D事前トレーニング技術よりも優れています。
プロジェクトページ:https://liftgs.github.io。

要約(オリジナル)

Our approach to training 3D vision-language understanding models is to train a feedforward model that makes predictions in 3D, but never requires 3D labels and is supervised only in 2D, using 2D losses and differentiable rendering. The approach is new for vision-language understanding. By treating the reconstruction as a “latent variable”, we can render the outputs without placing unnecessary constraints on the network architecture (e.g. can be used with decoder-only models). For training, only need images and camera pose, and 2D labels. We show that we can even remove the need for 2D labels by using pseudo-labels from pretrained 2D models. We demonstrate this to pretrain a network, and we finetune it for 3D vision-language understanding tasks. We show this approach outperforms baselines/sota for 3D vision-language grounding, and also outperforms other 3D pretraining techniques. Project page: https://liftgs.github.io.

arxiv情報

著者 Ang Cao,Sergio Arnaud,Oleksandr Maksymets,Jianing Yang,Ayush Jain,Sriram Yenamandra,Ada Martin,Vincent-Pierre Berges,Paul McVay,Ruslan Partsey,Aravind Rajeswaran,Franziska Meier,Justin Johnson,Jeong Joon Park,Alexander Sax
発行日 2025-02-27 18:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク