Improved Single Camera BEV Perception Using Multi-Camera Training

要約

Bird’s Eye View (BEV) 地図予測は、軌道予測などの下流の自動運転タスクに不可欠です。
以前は、これは複数のカメラから周囲の景色をキャプチャする高度なセンサー構成を使用することで実現されていました。
ただし、大規模な制作ではコスト効率が最適化の目標となるため、使用するカメラの数を減らすことがより重要になります。
しかし、入力画像が少なくなるという結果は、パフォーマンスの低下と相関関係があります。
このため、低コストのセンサー設定で十分なパフォーマンスを提供する BEV 知覚モ​​デルを開発するという問題が生じます。
このコスト制限は主に量産車の推論時間に関係しますが、トレーニング中のテスト車両ではそれほど問題になりません。
したがって、私たちのアプローチの目的は、単一カメラ推論用に縮小された最新のマルチカメラ サラウンド ビュー モデルを使用して、前述のパフォーマンスの低下を可能な限り減らすことです。
このアプローチには、最新のマスキング手法、周期学習率 (LR) スケジュール、トレーニング中の 6 台のカメラ入力から 1 台のカメラ入力への移行を監視するための特徴再構成損失の 3 つの機能が含まれています。
私たちの方法は、単一カメラ推論のために厳密に 1 台のカメラでトレーニングされたバージョン、または厳密に 6 台のカメラのサラウンド ビューでトレーニングされたバージョンよりも優れたパフォーマンスを示し、その結果、幻覚が減少し、BEV マップの品質が向上しました。

要約(オリジナル)

Bird’s Eye View (BEV) map prediction is essential for downstream autonomous driving tasks like trajectory prediction. In the past, this was accomplished through the use of a sophisticated sensor configuration that captured a surround view from multiple cameras. However, in large-scale production, cost efficiency is an optimization goal, so that using fewer cameras becomes more relevant. But the consequence of fewer input images correlates with a performance drop. This raises the problem of developing a BEV perception model that provides a sufficient performance on a low-cost sensor setup. Although, primarily relevant for inference time on production cars, this cost restriction is less problematic on a test vehicle during training. Therefore, the objective of our approach is to reduce the aforementioned performance drop as much as possible using a modern multi-camera surround view model reduced for single-camera inference. The approach includes three features, a modern masking technique, a cyclic Learning Rate (LR) schedule, and a feature reconstruction loss for supervising the transition from six-camera inputs to one-camera input during training. Our method outperforms versions trained strictly with one camera or strictly with six-camera surround view for single-camera inference resulting in reduced hallucination and better quality of the BEV map.

arxiv情報

著者 Daniel Busch,Ido Freeman,Richard Meyes,Tobias Meisen
発行日 2024-09-04 13:06:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク