要約
シーン座標回帰 (SCR)、つまり、特定の画像のすべてのピクセルの 3D 座標を予測することは、最近、有望な可能性を示しています。
ただし、既存の手法はほとんどがシーン固有であるか、小さなシーンに限定されているため、現実的なデータセットに合わせて拡張することはほとんどできません。
このペーパーでは、単一の汎用 SCR モデルを一度トレーニングしてから、その規模に関係なく、さらに微調整することなく新しいテスト シーンにデプロイするという新しいパラダイムを提案します。
特定のクエリ画像について、既製の画像検索技術と Structure-from-Motion データベース (まばらな点ごとの 2D-3D 注釈が付いた関連データベース画像のリスト) から入力を収集します。
このモデルはトランスフォーマー アーキテクチャに基づいており、可変数の画像とまばらな 2D-3D 注釈を入力として受け取ることができます。
これは、少数の多様なデータセットでトレーニングされており、視覚的な位置特定に関して、シーン固有のモデルを含むいくつかのベンチマークで他のシーン回帰アプローチを大幅に上回っています。
特に、ケンブリッジのローカライゼーション ベンチマークで新たな最先端技術を確立し、特徴マッチング ベースのアプローチをも上回りました。
要約(オリジナル)
Scene coordinates regression (SCR), i.e., predicting 3D coordinates for every pixel of a given image, has recently shown promising potential. However, existing methods remain mostly scene-specific or limited to small scenes and thus hardly scale to realistic datasets. In this paper, we propose a new paradigm where a single generic SCR model is trained once to be then deployed to new test scenes, regardless of their scale and without further finetuning. For a given query image, it collects inputs from off-the-shelf image retrieval techniques and Structure-from-Motion databases: a list of relevant database images with sparse pointwise 2D-3D annotations. The model is based on the transformer architecture and can take a variable number of images and sparse 2D-3D annotations as input. It is trained on a few diverse datasets and significantly outperforms other scene regression approaches on several benchmarks, including scene-specific models, for visual localization. In particular, we set a new state of the art on the Cambridge localization benchmark, even outperforming feature-matching-based approaches.
arxiv情報
著者 | Jerome Revaud,Yohann Cabon,Romain Brégier,JongMin Lee,Philippe Weinzaepfel |
発行日 | 2023-07-28 10:36:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google