要約
ステレオマッチング方法は、特に実際のデータセットのために、入手するのが面倒な密なピクセルごとのグラウンドトゥルースラベルに依存しています。
合成画像と現実世界の画像間のラベル付きデータとドメインギャップの希少性も顕著な課題をもたらします。
このホワイトペーパーでは、合成、リアル、シングルビュー画像を含むVision Foundationモデルと大規模な混合画像ソースの両方を活用する新しいフレームワーク\ TextBF {Booster}を提案します。
まず、大規模なシングルビュー画像の可能性を完全に解き放つために、単眼深度推定と拡散モデルを組み合わせたデータ生成戦略を設計し、シングルビュー画像から密なステレオマッチングデータを生成します。
第二に、実際のデータセットのまばらなラベルに取り組むために、擬似モノ深度ラベルと、追加の監督のために動的なスケールおよびシフト不変の損失を使用して、単眼深度推定モデルから知識を転送します。
さらに、Vision Foundation Modelをエンコーダーとして組み込み、堅牢で転送可能な機能を抽出し、精度と一般化を高めます。
ベンチマークデータセットでの広範な実験は、私たちのアプローチの有効性を示しており、特に限られたラベル付きデータとドメインシフトを備えたシナリオで、既存の方法に対する精度の大幅な改善を達成します。
要約(オリジナル)
Stereo matching methods rely on dense pixel-wise ground truth labels, which are laborious to obtain, especially for real-world datasets. The scarcity of labeled data and domain gaps between synthetic and real-world images also pose notable challenges. In this paper, we propose a novel framework, \textbf{BooSTer}, that leverages both vision foundation models and large-scale mixed image sources, including synthetic, real, and single-view images. First, to fully unleash the potential of large-scale single-view images, we design a data generation strategy combining monocular depth estimation and diffusion models to generate dense stereo matching data from single-view images. Second, to tackle sparse labels in real-world datasets, we transfer knowledge from monocular depth estimation models, using pseudo-mono depth labels and a dynamic scale- and shift-invariant loss for additional supervision. Furthermore, we incorporate vision foundation model as an encoder to extract robust and transferable features, boosting accuracy and generalization. Extensive experiments on benchmark datasets demonstrate the effectiveness of our approach, achieving significant improvements in accuracy over existing methods, particularly in scenarios with limited labeled data and domain shifts.
arxiv情報
著者 | Yuran Wang,Yingping Liang,Ying Fu |
発行日 | 2025-05-13 14:24:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google