NeRF-Supervised Deep Stereo

要約

ディープステレオネットワークを簡単に、グラウンドトゥルースなしでトレーニングするための新しいフレームワークを紹介します。
最先端のニューラルレンダリングソリューションを活用して、1 台のハンドヘルドカメラで収集した画像シーケンスからステレオトレーニングデータを生成します。
その上で、NeRF によって監視されたトレーニング手順が実行され、そこからレンダリングされたステレオトリプレットを利用して、オクルージョンと深度マップをプロキシラベルとして補正します。
これにより、シャープで詳細な視差マップを予測できるステレオネットワークが得られます。
実験結果によると、この体制でトレーニングされたモデルは、挑戦的なミドルベリーデータセットで既存の自己教師あり方法よりも 30 ～ 40% 改善され、教師ありモデルとのギャップを埋め、ほとんどの場合、ゼロショットの一般化でそれらよりも優れていることが示されています。

要約(オリジナル)

We introduce a novel framework for training deep stereo networks effortlessly and without any ground-truth. By leveraging state-of-the-art neural rendering solutions, we generate stereo training data from image sequences collected with a single handheld camera. On top of them, a NeRF-supervised training procedure is carried out, from which we exploit rendered stereo triplets to compensate for occlusions and depth maps as proxy labels. This results in stereo networks capable of predicting sharp and detailed disparity maps. Experimental results show that models trained under this regime yield a 30-40% improvement over existing self-supervised methods on the challenging Middlebury dataset, filling the gap to supervised models and, most times, outperforming them at zero-shot generalization.

arxiv情報

著者	Fabio Tosi,Alessio Tonioni,Daniele De Gregorio,Matteo Poggi
発行日	2023-03-30 17:59:58+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

NeRF-Supervised Deep Stereo

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー