要約
視覚的位置特定には、クエリ画像の 6-DoF (自由度) カメラ ポーズの推定が含まれます。これは、さまざまなコンピューター ビジョンやロボット タスクの基本コンポーネントです。
この論文では、シーン表現として 3D ガウス スプラッティング (GS) 技術を利用したビジョンベースのローカリゼーション パイプラインである LogS について説明します。
この斬新な表現により、高品質な斬新なビュー合成が可能になります。
マッピング フェーズでは、最初にモーション フロム モーション (SfM) が適用され、続いて GS マップが生成されます。
位置特定中は、画像検索、PnP ソルバーと組み合わせた局所特徴マッチングを通じて初期位置が取得され、GS マップ上での合成による分析によって高精度の姿勢が実現されます。
4 つの大規模データセットに関する実験結果は、カメラのポーズを推定する際の提案されたアプローチの SoTA 精度と、困難な少数ショット条件下での堅牢性を示しています。
要約(オリジナル)
Visual localization involves estimating a query image’s 6-DoF (degrees of freedom) camera pose, which is a fundamental component in various computer vision and robotic tasks. This paper presents LoGS, a vision-based localization pipeline utilizing the 3D Gaussian Splatting (GS) technique as scene representation. This novel representation allows high-quality novel view synthesis. During the mapping phase, structure-from-motion (SfM) is applied first, followed by the generation of a GS map. During localization, the initial position is obtained through image retrieval, local feature matching coupled with a PnP solver, and then a high-precision pose is achieved through the analysis-by-synthesis manner on the GS map. Experimental results on four large-scale datasets demonstrate the proposed approach’s SoTA accuracy in estimating camera poses and robustness under challenging few-shot conditions.
arxiv情報
著者 | Yuzhou Cheng,Jianhao Jiao,Yue Wang,Dimitrios Kanoulas |
発行日 | 2024-10-15 11:17:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google