要約
トップダウンの鳥瞰図 (BEV) マップは、下流タスクの豊富さと柔軟性により、地上ロボットのナビゲーションでよく使われます。
最近の方法は、一人称視点 (FPV) 画像から BEV マップを予測する可能性を示していますが、その一般化可能性は、現在の自動運転車ベースのデータセットによってキャプチャされた小さな領域に限定されています。
これに関連して、FPV 画像用の Mapillary と BEV セマンティック マップ用の OpenStreetMap という 2 つの大規模なクラウドソーシング マッピング プラットフォームを使用することで、一般化可能な地図予測に向けたよりスケーラブルなアプローチが可能になることを示します。
既存のオープンソース マップ プラットフォームからのラベル付き地図予測データのシームレスなキュレーションとモデリングを可能にするデータ エンジンである Map It Anywhere (MIA) を紹介します。
MIA データ エンジンを使用すると、さまざまな地理、風景、環境要因、カメラ モデル、キャプチャ シナリオを含む 120 万ペアの FPV 画像と BEV マップのデータセットを自動的に収集することが容易であることがわかります。
さらに、BEV マップ予測のために、このデータに基づいて単純なカメラ モデルに依存しないモデルをトレーニングします。
確立されたベンチマークと当社のデータセットを使用した広範な評価により、MIA によって厳選されたデータにより、一般化可能な BEV マップ予測のための効果的な事前トレーニングが可能になり、ゼロショットのパフォーマンスが既存のデータセットでトレーニングされたベースラインを 35% はるかに上回っていることがわかりました。
私たちの分析は、一般化可能な BEV 認識の開発とテストに大規模な公開地図を使用し、より堅牢な自律ナビゲーションへの道を開く可能性を強調しています。
要約(オリジナル)
Top-down Bird’s Eye View (BEV) maps are a popular representation for ground robot navigation due to their richness and flexibility for downstream tasks. While recent methods have shown promise for predicting BEV maps from First-Person View (FPV) images, their generalizability is limited to small regions captured by current autonomous vehicle-based datasets. In this context, we show that a more scalable approach towards generalizable map prediction can be enabled by using two large-scale crowd-sourced mapping platforms, Mapillary for FPV images and OpenStreetMap for BEV semantic maps. We introduce Map It Anywhere (MIA), a data engine that enables seamless curation and modeling of labeled map prediction data from existing open-source map platforms. Using our MIA data engine, we display the ease of automatically collecting a dataset of 1.2 million pairs of FPV images & BEV maps encompassing diverse geographies, landscapes, environmental factors, camera models & capture scenarios. We further train a simple camera model-agnostic model on this data for BEV map prediction. Extensive evaluations using established benchmarks and our dataset show that the data curated by MIA enables effective pretraining for generalizable BEV map prediction, with zero-shot performance far exceeding baselines trained on existing datasets by 35%. Our analysis highlights the promise of using large-scale public maps for developing & testing generalizable BEV perception, paving the way for more robust autonomous navigation.
arxiv情報
著者 | Cherie Ho,Jiaye Zou,Omar Alama,Sai Mitheran Jagadesh Kumar,Benjamin Chiang,Taneesh Gupta,Chen Wang,Nikhil Keetha,Katia Sycara,Sebastian Scherer |
発行日 | 2024-07-11 17:57:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google