Depth Field Networks for Generalizable Multi-view Scene Representation

要約

最新の3Dコンピュータービジョンは、学習を活用して幾何学的推論を強化し、画像データをコストボリュームやエピポーラ制約などの古典的な構造にマッピングしてマッチングを改善します。
これらのアーキテクチャは特定の問題に応じて特殊化されているため、タスク固有の大幅な調整が必要であり、ドメインの一般化のパフォーマンスが低下することがよくあります。
最近、ジェネラリストのTransformerアーキテクチャは、強制的な制約としてではなく入力として幾何学的な事前分布をエンコードすることにより、オプティカルフローや深度推定などのタスクで印象的な結果を達成しました。
この論文では、このアイデアを拡張し、ビューの多様性を高める前に、幾何学的帰納法として一連の3Dデータ拡張技術を導入して、暗黙のマルチビュー一貫性のあるシーン表現を学習することを提案します。
また、補助タスクとしてビュー合成を導入すると、深度推定がさらに改善されることも示します。
当社の被写界深度ネットワーク(DeFiNe)は、明示的な幾何学的制約なしにステレオおよびビデオの深度推定で最先端の結果を達成し、ゼロショットドメインの一般化を大幅に改善します。

要約(オリジナル)

Modern 3D computer vision leverages learning to boost geometric reasoning, mapping image data to classical structures such as cost volumes or epipolar constraints to improve matching. These architectures are specialized according to the particular problem, and thus require significant task-specific tuning, often leading to poor domain generalization performance. Recently, generalist Transformer architectures have achieved impressive results in tasks such as optical flow and depth estimation by encoding geometric priors as inputs rather than as enforced constraints. In this paper, we extend this idea and propose to learn an implicit, multi-view consistent scene representation, introducing a series of 3D data augmentation techniques as a geometric inductive prior to increase view diversity. We also show that introducing view synthesis as an auxiliary task further improves depth estimation. Our Depth Field Networks (DeFiNe) achieve state-of-the-art results in stereo and video depth estimation without explicit geometric constraints, and improve on zero-shot domain generalization by a wide margin.

arxiv情報

著者 Vitor Guizilini,Igor Vasiljevic,Jiading Fang,Rares Ambrus,Greg Shakhnarovich,Matthew Walter,Adrien Gaidon
発行日 2022-07-28 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク