DoubleTake: Geometry Guided Depth Estimation

要約

ポーズをとった一連の RGB 画像から深度を推定することは、拡張現実やパス プランニングなどに応用できる基本的なコンピューター ビジョン タスクです。これまでの研究では通常、ローカル近傍でのテクスチャの一致に依存して、マルチビュー ステレオ フレームワークで以前のフレームを利用していました。
対照的に、私たちのモデルは、ネットワークへの追加入力として最新の 3D ジオメトリ データを与えることにより、過去の予測を活用します。
この自己生成された幾何学的ヒントは、キーフレームでカバーされていないシーンの領域からの情報をエンコードでき、前のフレームの個々の予測深度マップと比較すると、より規則化されています。
コスト ボリュームの特徴と、現在のカメラ位置からの深度マップとしてレンダリングされた以前のジオメトリのヒントと、以前のジオメトリの信頼度の尺度を組み合わせるヒント MLP を導入します。
インタラクティブな速度で実行できる私たちの方法が、オフラインと増分評価シナリオの両方で深度の最先端の推定と 3D シーンの再構成を達成することを実証します。

要約(オリジナル)

Estimating depth from a sequence of posed RGB images is a fundamental computer vision task, with applications in augmented reality, path planning etc. Prior work typically makes use of previous frames in a multi view stereo framework, relying on matching textures in a local neighborhood. In contrast, our model leverages historical predictions by giving the latest 3D geometry data as an extra input to our network. This self-generated geometric hint can encode information from areas of the scene not covered by the keyframes and it is more regularized when compared to individual predicted depth maps for previous frames. We introduce a Hint MLP which combines cost volume features with a hint of the prior geometry, rendered as a depth map from the current camera location, together with a measure of the confidence in the prior geometry. We demonstrate that our method, which can run at interactive speeds, achieves state-of-the-art estimates of depth and 3D scene reconstruction in both offline and incremental evaluation scenarios.

arxiv情報

著者 Mohamed Sayed,Filippo Aleotti,Jamie Watson,Zawar Qureshi,Guillermo Garcia-Hernando,Gabriel Brostow,Sara Vicente,Michael Firman
発行日 2024-06-26 14:29:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク