要約
複数のビューからの正確な深さを計算することは、コンピュータービジョンにおける基本的で長年の課題です。
ただし、ほとんどの既存のアプローチでは、さまざまなドメインやシーンタイプ(屋内対屋外など)にわたってよく一般化されていません。
汎用マルチビューステレオモデルのトレーニングは挑戦的であり、いくつかの質問を提起します。
変圧器ベースのアーキテクチャを最適に使用する方法、さまざまな数の入力ビューがある場合に追加のメタデータを組み込む方法、および異なるシーンで大きく異なり、通常は先験的に知られていない有効な深さの範囲を推定する方法
これらの問題に対処するために、多様なドメインと深度範囲を一般化することでどこでも作業を目的とする斬新で多目的なマルチビューステレオアーキテクチャであるMVSAを紹介します。
MVSAは、単眼とマルチビューのキューを適応コストボリュームと組み合わせて、スケール関連の問題に対処します。
既存のマルチビューステレオと単眼ベースラインを上回る、堅牢なマルチビュー深度ベンチマークに関する最先端のゼロショット深度推定を示します。
要約(オリジナル)
Computing accurate depth from multiple views is a fundamental and longstanding challenge in computer vision. However, most existing approaches do not generalize well across different domains and scene types (e.g. indoor vs. outdoor). Training a general-purpose multi-view stereo model is challenging and raises several questions, e.g. how to best make use of transformer-based architectures, how to incorporate additional metadata when there is a variable number of input views, and how to estimate the range of valid depths which can vary considerably across different scenes and is typically not known a priori? To address these issues, we introduce MVSA, a novel and versatile Multi-View Stereo architecture that aims to work Anywhere by generalizing across diverse domains and depth ranges. MVSA combines monocular and multi-view cues with an adaptive cost volume to deal with scale-related issues. We demonstrate state-of-the-art zero-shot depth estimation on the Robust Multi-View Depth Benchmark, surpassing existing multi-view stereo and monocular baselines.
arxiv情報
著者 | Sergio Izquierdo,Mohamed Sayed,Michael Firman,Guillermo Garcia-Hernando,Daniyar Turmukhambetov,Javier Civera,Oisin Mac Aodha,Gabriel Brostow,Jamie Watson |
発行日 | 2025-03-28 13:46:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google