要約
タイトル:Pix2Map: 画像から街の地図を推測するためのクロスモーダル検索
要約:自動運転車は街の地図に頼って自律的に運転をします。本論文では、現存するマップの更新や拡張に必要な、視点から見た画像から直接都市のストリートマップのトポロジーを推測する方法であるPix2Mapを紹介します。この課題は、生の画像データから複雑な都市道路のトポロジーを推測する必要があり、困難なものです。本論文の主要な知見は、視覚環境のトポロジーの配置をエンコードする離散グラフとして表される既存の地図と画像の共通のクロスモーダル埋め込み空間を学習することによって、この問題をクロスモーダル検索として表現できるということです。Argoverseのデータセットを使用して評価を行い、画像データだけから既知道路と未知道路に対応するストリートマップを正確に推測することができることを示しました。さらに、我々の推測されたマップを使用して、現存するマップの更新や拡張、さらに空間グラフからのビジュアル・ローカライゼーションや画像検索のコンセプト実証を示しました。
– 自動運転車は街の地図に頼って自律的に運転するため、視点から見た画像から直接都市のストリートマップのトポロジーを推測する必要がある
– Pix2Mapは、視覚環境のトポロジーの配置をエンコードする離散グラフとして表される既存の地図と画像の共通のクロスモーダル埋め込み空間を学習し、この問題をクロスモーダル検索として表現する
– Argoverseのデータセットを使用して評価を行い、画像データだけから既知道路と未知道路に対応するストリートマップを正確に推測できることを示した
– 推測されたマップを使用して、現存するマップの更新や拡張、さらに空間グラフからのビジュアル・ローカライゼーションや画像検索のコンセプト実証を示した
要約(オリジナル)
Self-driving vehicles rely on urban street maps for autonomous navigation. In this paper, we introduce Pix2Map, a method for inferring urban street map topology directly from ego-view images, as needed to continually update and expand existing maps. This is a challenging task, as we need to infer a complex urban road topology directly from raw image data. The main insight of this paper is that this problem can be posed as cross-modal retrieval by learning a joint, cross-modal embedding space for images and existing maps, represented as discrete graphs that encode the topological layout of the visual surroundings. We conduct our experimental evaluation using the Argoverse dataset and show that it is indeed possible to accurately retrieve street maps corresponding to both seen and unseen roads solely from image data. Moreover, we show that our retrieved maps can be used to update or expand existing maps and even show proof-of-concept results for visual localization and image retrieval from spatial graphs.
arxiv情報
著者 | Xindi Wu,KwunFung Lau,Francesco Ferroni,Aljoša Ošep,Deva Ramanan |
発行日 | 2023-04-09 21:30:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI