PixSelect: Less but Reliable Pixels for Accurate and Efficient Localization

要約

正確なカメラ姿勢推定は、自律走行、モバイルロボット、拡張現実などの多くのアプリケーションの基本的な要件である。この作品では、与えられた環境における単一のRGB画像からグローバルな6DoFカメラポーズを推定する問題に取り組んでいます。これまでの研究では、ローカライズのために価値のある画像のあらゆる部分を考慮する。しかし、空、オクルージョン、非識別可能なパターンの繰り返しなど、多くの画像領域はローカライズに利用することができない。このような領域から特徴量を抽出し、照合することは、無駄な計算を増やすだけでなく、多くの誤照合を生み、結果として、定位精度と効率を低下させる。本研究では、この問題を解決するために、疎な3次元モデルという興味深い概念を利用することで、1枚の画像から識別可能な環境部分を利用し、無駄な画像領域を回避することができることを示す。興味深いことに、木、茂み、車、歩行者、オクルージョンなどの信頼性の低い画像領域からキーポイントを選択しないようにすることで、我々の研究は自然に外れ値フィルタとして機能するようになりました。これにより、最小限の対応点数で効率よく、かつ外れ値の少ない高精度な検索が可能となります。我々は、屋外のCambridge Landmarksデータセットにおいて、最先端手法を凌駕する結果を得た。推論時に1枚の画像に依存するだけで、ポーズプリオアや参照3Dモデルを利用する手法を精度面で凌駕し、かつ高速化した。また、わずか100個の対応関係を選択することで、数千個の対応関係から局所化する類似の手法を凌駕し、より効率的である。特に、OldHospitalシーンでは、これらの手法と比較して、33%の位置特定能力の向上を達成した。さらに、連続した画像から学習する直接ポーズレプレッサーにも勝る。

要約(オリジナル)

Accurate camera pose estimation is a fundamental requirement for numerous applications, such as autonomous driving, mobile robotics, and augmented reality. In this work, we address the problem of estimating the global 6 DoF camera pose from a single RGB image in a given environment. Previous works consider every part of the image valuable for localization. However, many image regions such as the sky, occlusions, and repetitive non-distinguishable patterns cannot be utilized for localization. In addition to adding unnecessary computation efforts, extracting and matching features from such regions produce many wrong matches which in turn degrades the localization accuracy and efficiency. Our work addresses this particular issue and shows by exploiting an interesting concept of sparse 3D models that we can exploit discriminatory environment parts and avoid useless image regions for the sake of a single image localization. Interestingly, through avoiding selecting keypoints from non-reliable image regions such as trees, bushes, cars, pedestrians, and occlusions, our work acts naturally as an outlier filter. This makes our system highly efficient in that minimal set of correspondences is needed and highly accurate as the number of outliers is low. Our work exceeds state-ofthe-art methods on outdoor Cambridge Landmarks dataset. With only relying on single image at inference, it outweighs in terms of accuracy methods that exploit pose priors and/or reference 3D models while being much faster. By choosing as little as 100 correspondences, it surpasses similar methods that localize from thousands of correspondences, while being more efficient. In particular, it achieves, compared to these methods, an improvement of localization by 33% on OldHospital scene. Furthermore, It outstands direct pose regressors even those that learn from sequence of images

arxiv情報

著者 Mohammad Altillawi
発行日 2022-06-08 09:46:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク