要約
ディープステレオマッチングでは、ドメインごとの微調整により、ベンチマークデータセットで優れた性能を発揮するために、多大な進歩がなされてきた。しかしながら、他のコンピュータビジョンタスクにおける基礎モデルの特徴である強力なゼロショット汎化を達成することは、ステレオマッチングにおいては依然として困難である。我々は、強いゼロショット汎化を達成するように設計された、ステレオ奥行き推定のための基礎モデルであるFoundationStereoを紹介する。この目的のために、我々はまず、大きな多様性と高いフォトリアリズムを特徴とする大規模な(1Mステレオペア)合成訓練データセットを構築し、次いで、曖昧なサンプルを除去するための自動セルフキュレーションパイプラインを構築する。次に、シミュレートとリアルのギャップを緩和するために、ビジョン基礎モデルから豊富な単眼プリオールを適応させるサイドチューニング特徴バックボーンや、効果的なコストボリュームフィルタリングのための長距離コンテキスト推論など、スケーラビリティを向上させるためのネットワークアーキテクチャコンポーネントを設計する。これらのコンポーネントを組み合わせることで、ドメイン間の強いロバスト性と精度を実現し、ゼロショットステレオ奥行き推定における新たな標準を確立します。プロジェクトページ: https://nvlabs.github.io/FoundationStereo/
要約(オリジナル)
Tremendous progress has been made in deep stereo matching to excel on benchmark datasets through per-domain fine-tuning. However, achieving strong zero-shot generalization – a hallmark of foundation models in other computer vision tasks – remains challenging for stereo matching. We introduce FoundationStereo, a foundation model for stereo depth estimation designed to achieve strong zero-shot generalization. To this end, we first construct a large-scale (1M stereo pairs) synthetic training dataset featuring large diversity and high photorealism, followed by an automatic self-curation pipeline to remove ambiguous samples. We then design a number of network architecture components to enhance scalability, including a side-tuning feature backbone that adapts rich monocular priors from vision foundation models to mitigate the sim-to-real gap, and long-range context reasoning for effective cost volume filtering. Together, these components lead to strong robustness and accuracy across domains, establishing a new standard in zero-shot stereo depth estimation. Project page: https://nvlabs.github.io/FoundationStereo/
arxiv情報
著者 | Bowen Wen,Matthew Trepte,Joseph Aribido,Jan Kautz,Orazio Gallo,Stan Birchfield |
発行日 | 2025-04-04 00:51:17+00:00 |
arxivサイト | arxiv_id(pdf) |