TempBEV: Improving Learned BEV Encoders with Combined Image and BEV Space Temporal Aggregation

要約

自動運転には環境を正確に表現する必要があります。
高精度に向けた戦略は、複数のセンサーからのデータを融合することです。
学習型鳥瞰図 (BEV) エンコーダーは、個々のセンサーからのデータを 1 つの結合潜在空間にマッピングすることでこれを実現できます。
コスト効率の高いカメラのみのシステムの場合、これは、異なるビューを持つ複数のカメラからのデータを融合する効果的なメカニズムを提供します。
センサー情報を時間の経過とともに集約することで、精度をさらに向上させることができます。
これは、明示的な深さと速度の測定ができないことを考慮して、単眼カメラ システムでは特に重要です。
したがって、開発された BEV エンコーダの有効性は、時間情報を集約するために使用される演算子と、使用される潜在表現空間に大きく依存します。
文献で提案されている BEV エンコーダを分析し、その有効性を比較し、集約演算子と潜在表現の効果を定量化します。
既存のアプローチのほとんどは、画像または BEV 潜在空間のいずれかで時間情報を集約しますが、我々の分析とパフォーマンスの比較は、これらの潜在表現が相補的な強みを示すことを示唆しています。
したがって、我々は、両方の潜在空間から集約された時間情報を統合する、新しい時間 BEV エンコーダ、TempBEV を開発します。
私たちは後続の画像フレームを時間の経過とともにステレオとみなして、オプティカル フロー推定からの方法を時間ステレオ エンコーディングに活用します。
NuScenes データセットの実験的評価では、TempBEV による 3D オブジェクト検出と BEV セグメンテーションのベースラインを超える大幅な改善が示されています。
アブレーションにより、画像と BEV 潜在空間における同時時間的集合の強力な相乗効果が明らかになります。
これらの結果は、私たちのアプローチの全体的な有効性を示しており、画像と BEV の潜在空間の両方で時間情報を集約するための強力な根拠となります。

要約(オリジナル)

Autonomous driving requires an accurate representation of the environment. A strategy toward high accuracy is to fuse data from several sensors. Learned Bird’s-Eye View (BEV) encoders can achieve this by mapping data from individual sensors into one joint latent space. For cost-efficient camera-only systems, this provides an effective mechanism to fuse data from multiple cameras with different views. Accuracy can further be improved by aggregating sensor information over time. This is especially important in monocular camera systems to account for the lack of explicit depth and velocity measurements. Thereby, the effectiveness of developed BEV encoders crucially depends on the operators used to aggregate temporal information and on the used latent representation spaces. We analyze BEV encoders proposed in the literature and compare their effectiveness, quantifying the effects of aggregation operators and latent representations. While most existing approaches aggregate temporal information either in image or in BEV latent space, our analyses and performance comparisons suggest that these latent representations exhibit complementary strengths. Therefore, we develop a novel temporal BEV encoder, TempBEV, which integrates aggregated temporal information from both latent spaces. We consider subsequent image frames as stereo through time and leverage methods from optical flow estimation for temporal stereo encoding. Empirical evaluation on the NuScenes dataset shows a significant improvement by TempBEV over the baseline for 3D object detection and BEV segmentation. The ablation uncovers a strong synergy of joint temporal aggregation in the image and BEV latent space. These results indicate the overall effectiveness of our approach and make a strong case for aggregating temporal information in both image and BEV latent spaces.

arxiv情報

著者 Thomas Monninger,Vandana Dokkadi,Md Zafar Anwar,Steffen Staab
発行日 2024-04-17 23:49:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク