HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder

要約

エンドツーエンドの自律運転(E2E-AD)テクノロジーは近年大きな進歩を遂げていますが、閉ループ評価では不十分なパフォーマンスが残っています。
クエリの設計と相互作用における計画を活用する可能性はまだ完全には検討されていません。
このホワイトペーパーでは、さまざまなサンプリングパターンにわたって空間、時間、および運転スタイルのウェイポイントを含む不均一なウェイポイントを統合するマルチ粒度計画クエリ表現を紹介します。
軌道予測のための追加の監督を提供し、エゴ車両の正確な閉ループ制御を強化します。
さらに、計画軌道の幾何学的特性を明示的に利用して、変形可能な注意を使用して物理的な場所に基づいて関連する画像機能を効果的に取得します。
これらの戦略を組み合わせることにより、HIP-ADと呼ばれる新しいエンドツーエンドの自律運転フレームワークを提案します。これは、統合デコーダー内で知覚、予測、および計画を同時に実行します。
HIP-ADは、計画クエリがBEV空間内の知覚クエリと繰り返し相互作用しながら、観点から画像機能を動的に抽出できるようにすることにより、包括的な対話を可能にします。
実験は、HIP-ADが閉ループベンチマークベンチ2Driveのすべての既存のエンドツーエンドの自律運転方法を上回り、実際のデータセットヌスセンで競争力のあるパフォーマンスを達成することを示しています。

要約(オリジナル)

Although end-to-end autonomous driving (E2E-AD) technologies have made significant progress in recent years, there remains an unsatisfactory performance on closed-loop evaluation. The potential of leveraging planning in query design and interaction has not yet been fully explored. In this paper, we introduce a multi-granularity planning query representation that integrates heterogeneous waypoints, including spatial, temporal, and driving-style waypoints across various sampling patterns. It provides additional supervision for trajectory prediction, enhancing precise closed-loop control for the ego vehicle. Additionally, we explicitly utilize the geometric properties of planning trajectories to effectively retrieve relevant image features based on physical locations using deformable attention. By combining these strategies, we propose a novel end-to-end autonomous driving framework, termed HiP-AD, which simultaneously performs perception, prediction, and planning within a unified decoder. HiP-AD enables comprehensive interaction by allowing planning queries to iteratively interact with perception queries in the BEV space while dynamically extracting image features from perspective views. Experiments demonstrate that HiP-AD outperforms all existing end-to-end autonomous driving methods on the closed-loop benchmark Bench2Drive and achieves competitive performance on the real-world dataset nuScenes.

arxiv情報

著者 Yingqi Tang,Zhuoran Xu,Zhaotie Meng,Erkang Cheng
発行日 2025-03-11 16:52:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク