Accelerating Online Mapping and Behavior Prediction via Direct BEV Feature Attention

要約

道路の形状を理解することは、自動運転車 (AV) スタックの重要なコンポーネントです。
高解像度 (HD) マップはそのような情報を容易に提供できますが、ラベル付けとメンテナンスのコストが高くつきます。
したがって、最近の多くの研究では、センサーデータからオンラインで HD マップを推定する方法が提案されています。
最近のアプローチの大部分は、マルチカメラ観察を鳥瞰図 (BEV) グリッドなどの中間表現にエンコードし、デコーダを介してベクトル マップ要素を生成します。
このアーキテクチャはパフォーマンスが高い一方で、中間表現でエンコードされた情報の多くを間引き、下流のタスク (動作予測など) がそれらを活用するのを妨げます。
この研究では、オンライン マップ推定方法の豊富な内部機能を明らかにし、オンライン マッピングと軌道予測をより緊密に統合する方法を示します。
そうすることで、内部 BEV 機能に直接アクセスすると、現実世界の nuScenes データセットでの推論速度が最大 73% 向上し、予測の精度が最大 29% 向上することがわかりました。

要約(オリジナル)

Understanding road geometry is a critical component of the autonomous vehicle (AV) stack. While high-definition (HD) maps can readily provide such information, they suffer from high labeling and maintenance costs. Accordingly, many recent works have proposed methods for estimating HD maps online from sensor data. The vast majority of recent approaches encode multi-camera observations into an intermediate representation, e.g., a bird’s eye view (BEV) grid, and produce vector map elements via a decoder. While this architecture is performant, it decimates much of the information encoded in the intermediate representation, preventing downstream tasks (e.g., behavior prediction) from leveraging them. In this work, we propose exposing the rich internal features of online map estimation methods and show how they enable more tightly integrating online mapping with trajectory forecasting. In doing so, we find that directly accessing internal BEV features yields up to 73% faster inference speeds and up to 29% more accurate predictions on the real-world nuScenes dataset.

arxiv情報

著者 Xunjiang Gu,Guanyu Song,Igor Gilitschenski,Marco Pavone,Boris Ivanovic
発行日 2024-07-09 08:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク