要約
Bird’s-Eye View (BEV) Perception は、ビュー全体で簡潔で統一された空間表現を提供し、さまざまなダウンストリーム ドライビング アプリケーションに利益をもたらすため、近年ますます注目を集めています。
BEV セグメンテーションなどの識別タスクに焦点が当てられてきましたが、BEV レイアウトからストリート ビュー画像を作成するという 2 つの生成タスクが検討されることはほとんどありませんでした。
特定の HD マップと交通レイアウトに合わせた現実的なストリート ビュー画像を生成する機能は、複雑な交通シナリオを視覚化し、自動運転用の堅牢な認識モデルを開発するために重要です。
この論文では、BEVGen を提案します。BEVGen は、交通シナリオの BEV レイアウトに一致する現実的で空間的に一貫した一連の周辺画像を合成する条件付き生成モデルです。
BEVGen には、カメラとマップ ビューの関係を学習して一貫性を確保する、新しいクロスビュー変換と空間的注意設計が組み込まれています。
私たちのモデルは、道路や車線を正確にレンダリングし、さまざまな気象条件や時間帯で交通シーンを生成できます。
コードは公開されます。
要約(オリジナル)
Bird’s-Eye View (BEV) Perception has received increasing attention in recent years as it provides a concise and unified spatial representation across views and benefits a diverse set of downstream driving applications. While the focus has been placed on discriminative tasks such as BEV segmentation, the dual generative task of creating street-view images from a BEV layout has rarely been explored. The ability to generate realistic street-view images that align with a given HD map and traffic layout is critical for visualizing complex traffic scenarios and developing robust perception models for autonomous driving. In this paper, we propose BEVGen, a conditional generative model that synthesizes a set of realistic and spatially consistent surrounding images that match the BEV layout of a traffic scenario. BEVGen incorporates a novel cross-view transformation and spatial attention design which learn the relationship between cameras and map views to ensure their consistency. Our model can accurately render road and lane lines, as well as generate traffic scenes under different weather conditions and times of day. The code will be made publicly available.
arxiv情報
著者 | Alexander Swerdlow,Runsheng Xu,Bolei Zhou |
発行日 | 2023-01-11 18:39:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google