Virtual Correspondence: Humans as a Cue for Extreme-View Geometry

要約

極端なビューの画像からカメラの空間レイアウトとシーンのジオメトリを復元することは、コンピュータビジョンにおける長年の課題です。
一般的な3D再構成アルゴリズムは、画像マッチングパラダイムを採用することが多く、シーンの一部が画像間で共可視であると想定しているため、入力間のオーバーラップがほとんどない場合はパフォーマンスが低下します。
対照的に、人間は、形状の事前知識を介して、ある画像の可視部分を別の画像の対応する不可視コンポーネントに関連付けることができます。
この事実に触発されて、仮想通信(VC)と呼ばれる新しい概念を提示します。
VCは、カメラの光線が3Dで交差する2つの画像からのピクセルのペアです。
従来の対応と同様に、VCはエピポーラ幾何学に準拠しています。
従来の通信とは異なり、VCはビュー間で共存する必要はありません。
したがって、イメージがオーバーラップしていなくても、VCを確立して活用できます。
シーン内の人間に基づいた仮想対応を見つける方法を紹介します。
VCを従来のバンドル調整とシームレスに統合して、極端なビュー全体でカメラのポーズを復元する方法を紹介します。
実験によると、私たちの方法は、困難なシナリオで最先端のカメラポーズ推定方法を大幅に上回り、従来の密にキャプチャされたセットアップに匹敵します。
私たちのアプローチはまた、マルチビューステレオからのシーンの再構築や極端なビューのシナリオでの新しいビューの合成など、複数のダウンストリームタスクの可能性を解き放ちます。

要約(オリジナル)

Recovering the spatial layout of the cameras and the geometry of the scene from extreme-view images is a longstanding challenge in computer vision. Prevailing 3D reconstruction algorithms often adopt the image matching paradigm and presume that a portion of the scene is co-visible across images, yielding poor performance when there is little overlap among inputs. In contrast, humans can associate visible parts in one image to the corresponding invisible components in another image via prior knowledge of the shapes. Inspired by this fact, we present a novel concept called virtual correspondences (VCs). VCs are a pair of pixels from two images whose camera rays intersect in 3D. Similar to classic correspondences, VCs conform with epipolar geometry; unlike classic correspondences, VCs do not need to be co-visible across views. Therefore VCs can be established and exploited even if images do not overlap. We introduce a method to find virtual correspondences based on humans in the scene. We showcase how VCs can be seamlessly integrated with classic bundle adjustment to recover camera poses across extreme views. Experiments show that our method significantly outperforms state-of-the-art camera pose estimation methods in challenging scenarios and is comparable in the traditional densely captured setup. Our approach also unleashes the potential of multiple downstream tasks such as scene reconstruction from multi-view stereo and novel view synthesis in extreme-view scenarios.

arxiv情報

著者 Wei-Chiu Ma,Anqi Joyce Yang,Shenlong Wang,Raquel Urtasun,Antonio Torralba
発行日 2022-06-16 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク