SNAP: Self-Supervised Neural Maps for Visual Positioning and Semantic Understanding

要約

セマンティック 2D マップは、人間や機械が歩行や運転などのナビゲーション目的で一般的に使用します。
ただし、これらのマップには限界があります。詳細が不足しており、多くの場合不正確さが含まれており、特に自動化された方法での作成と維持が困難です。
生の画像を使用して、人間と機械の両方が簡単に解釈できる、より優れた地図を自動的に作成することはできますか?
地上および頭上の画像から豊富なニューラル 2D マップを学習するディープ ネットワークである SNAP を紹介します。
私たちは、数千万枚のストリートビュー画像にわたるカメラのポーズだけを監視しながら、さまざまな入力から推定されたニューラル マップを調整するようにモデルをトレーニングします。
SNAP は、従来の方法では到達できない困難な画像クエリの位置を解決でき、位置特定において最新技術を大幅に上回ります。
さらに、当社のニューラル マップは、形状や外観だけでなく、明示的な監視なしで発見された高レベルのセマンティクスもエンコードしています。
これにより、データ効率の高いセマンティック シーンを理解するための効果的な事前トレーニングが可能になり、より詳細なマップをコスト効率よく作成できる可能性があります。

要約(オリジナル)

Semantic 2D maps are commonly used by humans and machines for navigation purposes, whether it’s walking or driving. However, these maps have limitations: they lack detail, often contain inaccuracies, and are difficult to create and maintain, especially in an automated fashion. Can we use raw imagery to automatically create better maps that can be easily interpreted by both humans and machines? We introduce SNAP, a deep network that learns rich neural 2D maps from ground-level and overhead images. We train our model to align neural maps estimated from different inputs, supervised only with camera poses over tens of millions of StreetView images. SNAP can resolve the location of challenging image queries beyond the reach of traditional methods, outperforming the state of the art in localization by a large margin. Moreover, our neural maps encode not only geometry and appearance but also high-level semantics, discovered without explicit supervision. This enables effective pre-training for data-efficient semantic scene understanding, with the potential to unlock cost-efficient creation of more detailed maps.

arxiv情報

著者 Paul-Edouard Sarlin,Eduard Trulls,Marc Pollefeys,Jan Hosang,Simon Lynen
発行日 2023-11-01 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク