要約
【タイトル】オンボードビデオからのオンラインレーングラフ抽出
【要約】
– 自律走行には、周囲の道路ネットワークをナビゲーションするための構造化された理解が必要である。
– そのような理解の最も一般的で有用な表現の1つは、BEV(鳥瞰図)レーングラフとして行われる。
– この研究では、オンボードカメラからのビデオストリームを使用して、周囲のレーングラフをオンラインで抽出する。
– 入力として単一の画像ではなくビデオを使用することは、異なる時間ステップからの情報を組み合わせることに関して利点と課題に直面する。
– この研究では、3つの異なるアプローチによって課題を研究する。
1. 単一フレームレーングラフの推定を統合することができるポストプロセッシングステップ
2. 空間時間埋め込みの使用により、ネットワークが最適な時間集約戦略を発見できるようにする
3. 明示的なBEV投影およびフレームごとの特徴の整列を介した初期時間集約。提案された単純で効果的な方法の1つのモデルは、1枚を含む任意の数の画像を処理して正確なレーングラフを生成できる。
– NuscenesおよびArgoverseのデータセット上の実験は、すべてのアプローチの妥当性を示しながら、提案された方法の優位性を強調する。コードは公開されます。
要約(オリジナル)
Autonomous driving requires a structured understanding of the surrounding road network to navigate. One of the most common and useful representation of such an understanding is done in the form of BEV lane graphs. In this work, we use the video stream from an onboard camera for online extraction of the surrounding’s lane graph. Using video, instead of a single image, as input poses both benefits and challenges in terms of combining the information from different timesteps. We study the emerged challenges using three different approaches. The first approach is a post-processing step that is capable of merging single frame lane graph estimates into a unified lane graph. The second approach uses the spatialtemporal embeddings in the transformer to enable the network to discover the best temporal aggregation strategy. Finally, the third, and the proposed method, is an early temporal aggregation through explicit BEV projection and alignment of framewise features. A single model of this proposed simple, yet effective, method can process any number of images, including one, to produce accurate lane graphs. The experiments on the Nuscenes and Argoverse datasets show the validity of all the approaches while highlighting the superiority of the proposed method. The code will be made public.
arxiv情報
| 著者 | Yigit Baran Can,Alexander Liniger,Danda Pani Paudel,Luc Van Gool |
| 発行日 | 2023-04-03 12:36:39+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI