要約
DUSt3R などの新しい 3D 幾何学的基礎モデルは、実際の 3D ビジョン タスクに有望なアプローチを提供します。
ただし、問題空間の高次元の性質と高品質の 3D データの不足により、これらの事前トレーニングされたモデルは、限られたビューの重複や低照明など、多くの困難な状況に一般化するのに依然として苦労しています。
これに対処するために、私たちは、独自のマルチビュー予測を使用してシーンをターゲットにする事前トレーニング済みモデルを $\textit{specialize}$ するための効率的な自己調整パイプラインである LoRA3D を提案します。
スパース RGB 画像を入力として受け取り、堅牢な最適化技術を活用してマルチビュー予測を改良し、グローバル座標フレームに位置合わせします。
特に、予測の信頼度を幾何最適化プロセスに組み込み、点推定の精度をよりよく反映するために信頼度を自動的に再重み付けします。
校正された信頼度を使用して校正ビューの高品質の擬似ラベルを生成し、低ランク適応 (LoRA) を使用して擬似ラベル付きデータのモデルを微調整します。
私たちの方法では、外部の事前分布や手動のラベルは必要ありません。
$\textbf{単一の標準 GPU での自己調整プロセスをわずか 5 分以内}$ で完了します。
各低ランク アダプタには、$\textbf{18MB}$ のストレージのみが必要です。
レプリカ、TUM、Waymo Open データセットからの $\textbf{160 を超えるシーン}$ で手法を評価し、3D 再構成、マルチビュー姿勢推定、および斬新なパフォーマンスで最大 $\textbf{88% のパフォーマンス向上}$ を達成しました。
レンダリングを表示します。
要約(オリジナル)
Emerging 3D geometric foundation models, such as DUSt3R, offer a promising approach for in-the-wild 3D vision tasks. However, due to the high-dimensional nature of the problem space and scarcity of high-quality 3D data, these pre-trained models still struggle to generalize to many challenging circumstances, such as limited view overlap or low lighting. To address this, we propose LoRA3D, an efficient self-calibration pipeline to $\textit{specialize}$ the pre-trained models to target scenes using their own multi-view predictions. Taking sparse RGB images as input, we leverage robust optimization techniques to refine multi-view predictions and align them into a global coordinate frame. In particular, we incorporate prediction confidence into the geometric optimization process, automatically re-weighting the confidence to better reflect point estimation accuracy. We use the calibrated confidence to generate high-quality pseudo labels for the calibrating views and use low-rank adaptation (LoRA) to fine-tune the models on the pseudo-labeled data. Our method does not require any external priors or manual labels. It completes the self-calibration process on a $\textbf{single standard GPU within just 5 minutes}$. Each low-rank adapter requires only $\textbf{18MB}$ of storage. We evaluated our method on $\textbf{more than 160 scenes}$ from the Replica, TUM and Waymo Open datasets, achieving up to $\textbf{88% performance improvement}$ on 3D reconstruction, multi-view pose estimation and novel-view rendering.
arxiv情報
著者 | Ziqi Lu,Heng Yang,Danfei Xu,Boyi Li,Boris Ivanovic,Marco Pavone,Yue Wang |
発行日 | 2024-12-10 18:45:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google