Exploring Contextual Representation and Multi-Modality for End-to-End Autonomous Driving

要約

状況に応じた空間的環境表現を学習することで、複雑なシナリオにおける自動運転車の危険予測と意思決定が強化されます。
最近の知覚システムは、センサー フュージョンにより空間理解を強化しますが、多くの場合、完全な環境コンテキストが欠如しています。
人間は運転する際、履歴データ、状況の機微、他の道路利用者の行動予測などのさまざまな要素を統合したニューラル マップを自然に使用して、周囲の状況に関する豊かな状況理解を形成します。
このニューラルマップに基づく理解は、路上で情報に基づいた意思決定を行うために不可欠です。
対照的に、自律システムは、その大幅な進歩にもかかわらず、人間のような深い文脈理解をまだ完全には活用できていません。
これを動機として、私たちの研究は人間の運転パターンからインスピレーションを得て、エンドツーエンドの自動運転フレームワーク内でセンサー フュージョン アプローチを形式化することを目指しています。
3 つのカメラ (左、右、中央) を統合して人間の視野をエミュレートし、トップダウンの鳥瞰図のセマンティック データと組み合わせてコンテキスト表現を強化するフレームワークを導入します。
センサー データはセルフ アテンション メカニズムを使用して融合およびエンコードされ、自動回帰ウェイポイント予測モジュールにつながります。
私たちは特徴表現を逐次的な問題として扱い、ビジョントランスフォーマーを使用してセンサーモダリティ間の文脈上の相互作用を抽出します。
提案された方法の有効性は、開ループ設定と閉ループ設定の両方で実験的に評価されます。
私たちの方法は、開ループ設定で 0.67 m の変位誤差を達成し、nuScenes データセット上で現在の方法を 6.9% 上回ります。
CARLA の Town05 Long および Longest6 ベンチマークの閉ループ評価では、提案された方法により運転パフォーマンス、ルート完了が向上し、違反が減少しました。

要約(オリジナル)

Learning contextual and spatial environmental representations enhances autonomous vehicle’s hazard anticipation and decision-making in complex scenarios. Recent perception systems enhance spatial understanding with sensor fusion but often lack full environmental context. Humans, when driving, naturally employ neural maps that integrate various factors such as historical data, situational subtleties, and behavioral predictions of other road users to form a rich contextual understanding of their surroundings. This neural map-based comprehension is integral to making informed decisions on the road. In contrast, even with their significant advancements, autonomous systems have yet to fully harness this depth of human-like contextual understanding. Motivated by this, our work draws inspiration from human driving patterns and seeks to formalize the sensor fusion approach within an end-to-end autonomous driving framework. We introduce a framework that integrates three cameras (left, right, and center) to emulate the human field of view, coupled with top-down bird-eye-view semantic data to enhance contextual representation. The sensor data is fused and encoded using a self-attention mechanism, leading to an auto-regressive waypoint prediction module. We treat feature representation as a sequential problem, employing a vision transformer to distill the contextual interplay between sensor modalities. The efficacy of the proposed method is experimentally evaluated in both open and closed-loop settings. Our method achieves displacement error by 0.67m in open-loop settings, surpassing current methods by 6.9% on the nuScenes dataset. In closed-loop evaluations on CARLA’s Town05 Long and Longest6 benchmarks, the proposed method enhances driving performance, route completion, and reduces infractions.

arxiv情報

著者 Shoaib Azam,Farzeen Munir,Ville Kyrki,Moongu Jeon,Witold Pedrycz
発行日 2024-01-16 23:54:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク