Alligat0R: Pre-Training Through Co-Visibility Segmentation for Relative Camera Pose Regression

要約

トレーニング前の手法は、コンピュータービジョンを大きく進めており、Crocoのクロスビュー完了アプローチは、3D再構成やポーズ回帰などのタスクで印象的な結果をもたらします。
ただし、この方法では、トレーニングペア間でかなりの重複が必要であり、その有効性が制限されます。
Co-Visibilityセグメンテーションタスクとしてクロスビュー学習を再定式化する新しいトレーニング前アプローチであるAlligat0Rを紹介します。
私たちの方法は、1つの画像内の各ピクセルが2番目の画像で互換性があるか、視野の外側(FOV)で共存しているかを予測し、任意の程度のオーバーラップで画像ペアを使用し、解釈可能な予測を提供します。
これをサポートするために、250万の画像ペアとヌスセンデータセットから派生した密集した共活性アノテーションを備えた大規模なデータセットであるCub3を提示します。
このデータセットには、さまざまな程度のオーバーラップを持つ多様なシナリオが含まれています。
この実験は、Alligat0rが、特に重複が制限されているシナリオで、相対的なポーズ回帰でCrocoを大幅に上回ることを示しています。
Alligat0rとCub3が公開されます。

要約(オリジナル)

Pre-training techniques have greatly advanced computer vision, with CroCo’s cross-view completion approach yielding impressive results in tasks like 3D reconstruction and pose regression. However, this method requires substantial overlap between training pairs, limiting its effectiveness. We introduce Alligat0R, a novel pre-training approach that reformulates cross-view learning as a co-visibility segmentation task. Our method predicts whether each pixel in one image is co-visible in the second image, occluded, or outside the field of view (FOV), enabling the use of image pairs with any degree of overlap and providing interpretable predictions. To support this, we present Cub3, a large-scale dataset with 2.5 million image pairs and dense co-visibility annotations derived from the nuScenes dataset. This dataset includes diverse scenarios with varying degrees of overlap. The experiments show that Alligat0R significantly outperforms CroCo in relative pose regression, especially in scenarios with limited overlap. Alligat0R and Cub3 will be made publicly available.

arxiv情報

著者 Thibaut Loiseau,Guillaume Bourmaud,Vincent Lepetit
発行日 2025-03-10 17:29:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク