Pix2Map: Cross-modal Retrieval for Inferring Street Maps from Images


タイトル:Pix2Map: 画像から街の地図を推測するためのクロスモーダル検索

– 自動運転車は街の地図に頼って自律的に運転するため、視点から見た画像から直接都市のストリートマップのトポロジーを推測する必要がある
– Pix2Mapは、視覚環境のトポロジーの配置をエンコードする離散グラフとして表される既存の地図と画像の共通のクロスモーダル埋め込み空間を学習し、この問題をクロスモーダル検索として表現する
– Argoverseのデータセットを使用して評価を行い、画像データだけから既知道路と未知道路に対応するストリートマップを正確に推測できることを示した
– 推測されたマップを使用して、現存するマップの更新や拡張、さらに空間グラフからのビジュアル・ローカライゼーションや画像検索のコンセプト実証を示した


Self-driving vehicles rely on urban street maps for autonomous navigation. In this paper, we introduce Pix2Map, a method for inferring urban street map topology directly from ego-view images, as needed to continually update and expand existing maps. This is a challenging task, as we need to infer a complex urban road topology directly from raw image data. The main insight of this paper is that this problem can be posed as cross-modal retrieval by learning a joint, cross-modal embedding space for images and existing maps, represented as discrete graphs that encode the topological layout of the visual surroundings. We conduct our experimental evaluation using the Argoverse dataset and show that it is indeed possible to accurately retrieve street maps corresponding to both seen and unseen roads solely from image data. Moreover, we show that our retrieved maps can be used to update or expand existing maps and even show proof-of-concept results for visual localization and image retrieval from spatial graphs.


著者 Xindi Wu,KwunFung Lau,Francesco Ferroni,Aljoša Ošep,Deva Ramanan
発行日 2023-04-09 21:30:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク