Doppelgangers: Learning to Disambiguate Images of Similar Structures

要約

視覚的に類似した画像のペアが同じまたは異なる 3D 表面 (たとえば、対称的な建物の同じ側または反対側) を描写しているかどうかを判断する視覚的曖昧さ解消タスクを検討します。
2 つの画像が異なるものの視覚的に類似した 3D 表面を観察する錯覚的な画像一致は、人間にとって区別するのが困難な場合があり、3D 再構成アルゴリズムが誤った結果を生成する可能性もあります。
我々は、視覚的な曖昧さを解消するための学習ベースのアプローチを提案し、それを画像ペアのバイナリ分類タスクとして定式化します。
そのために、この問題に対する新しいデータセットであるドッペルゲンガーを導入します。これには、グラウンド トゥルース ラベルが付いた類似構造の画像ペアが含まれています。
また、ローカル キーポイントと一致の空間分布を入力として取得するネットワーク アーキテクチャも設計し、ローカルとグローバルの両方の手がかりについてより適切な推論を可能にします。
私たちの評価では、私たちの方法が困難な場合の錯覚一致を区別でき、SfM パイプラインに統合して正確で曖昧さのない 3D 再構成を生成できることが示されています。
コード、データセット、その他の結果については、プロジェクト ページ (http://doppelgangers-3d.github.io/) を参照してください。

要約(オリジナル)

We consider the visual disambiguation task of determining whether a pair of visually similar images depict the same or distinct 3D surfaces (e.g., the same or opposite sides of a symmetric building). Illusory image matches, where two images observe distinct but visually similar 3D surfaces, can be challenging for humans to differentiate, and can also lead 3D reconstruction algorithms to produce erroneous results. We propose a learning-based approach to visual disambiguation, formulating it as a binary classification task on image pairs. To that end, we introduce a new dataset for this problem, Doppelgangers, which includes image pairs of similar structures with ground truth labels. We also design a network architecture that takes the spatial distribution of local keypoints and matches as input, allowing for better reasoning about both local and global cues. Our evaluation shows that our method can distinguish illusory matches in difficult cases, and can be integrated into SfM pipelines to produce correct, disambiguated 3D reconstructions. See our project page for our code, datasets, and more results: http://doppelgangers-3d.github.io/.

arxiv情報

著者 Ruojin Cai,Joseph Tung,Qianqian Wang,Hadar Averbuch-Elor,Bharath Hariharan,Noah Snavely
発行日 2023-09-05 17:50:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク