要約
Bird’s-Eye-View (BEV) 認識は、複数のセンサー入力を統一表現に統合し、さまざまな下流タスクのパフォーマンスを向上させる機能により、自動運転システムの重要なコンポーネントとなっています。
ただし、BEV モデルの計算要求は、リソースが限られた車両に実際に導入する場合に課題を引き起こします。
これらの制限に対処するために、3D オブジェクト検出、車線検出、マップ セグメンテーション、占有予測という 4 つの主要なタスクにわたって共有された空間情報とコンテキスト情報を活用する、効率的なマルチタスク認識フレームワークである QuadBEV を提案します。
QuadBEV は、共有バックボーンとタスク固有のヘッドを使用してこれらのタスクの統合を合理化するだけでなく、学習率の感度や競合するタスク目標などの一般的なマルチタスク学習の課題にも対処します。
私たちのフレームワークは冗長な計算を削減し、それによってシステム効率を向上させ、特に組み込みシステムに適しています。
QuadBEV の有効性と堅牢性を検証する包括的な実験を紹介し、現実世界のアプリケーションへの適合性を実証します。
要約(オリジナル)
Bird’s-Eye-View (BEV) perception has become a vital component of autonomous driving systems due to its ability to integrate multiple sensor inputs into a unified representation, enhancing performance in various downstream tasks. However, the computational demands of BEV models pose challenges for real-world deployment in vehicles with limited resources. To address these limitations, we propose QuadBEV, an efficient multitask perception framework that leverages the shared spatial and contextual information across four key tasks: 3D object detection, lane detection, map segmentation, and occupancy prediction. QuadBEV not only streamlines the integration of these tasks using a shared backbone and task-specific heads but also addresses common multitask learning challenges such as learning rate sensitivity and conflicting task objectives. Our framework reduces redundant computations, thereby enhancing system efficiency, making it particularly suited for embedded systems. We present comprehensive experiments that validate the effectiveness and robustness of QuadBEV, demonstrating its suitability for real-world applications.
arxiv情報
| 著者 | Yuxin Li,Yiheng Li,Xulei Yang,Mengying Yu,Zihang Huang,Xiaojun Wu,Chai Kiat Yeo |
| 発行日 | 2024-10-09 03:31:45+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google