Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models

要約

自動運転技術が成熟するにつれて、エンドツーエンドの方法論が主要な戦略として浮上し、ディープラーニングによる知覚から制御までのシームレスな統合が約束されています。
しかし、既存のシステムは、予期せぬオープンセット環境やブラックボックス モデルの複雑さなどの課題に取り組んでいます。
同時に、深層学習の進化により、より大規模なマルチモーダルな基礎モデルが導入され、マルチモーダルな視覚的およびテキストによる理解を提供します。
この論文では、これらのマルチモーダル基盤モデルを活用して自動運転システムの堅牢性と適応性を強化し、分散型、エンドツーエンド、マルチモーダル、より説明可能な自律運転を可能にします。
具体的には、画像とテキストによってクエリ可能な表現から運転決定を提供できる、エンドツーエンドのオープンセット (あらゆる環境/シーン) 自動運転を適用するアプローチを紹介します。
そのために、トランスフォーマーから微妙な空間 (ピクセル/パッチ調整された) 特徴を抽出し、空間的特徴と意味的特徴の両方のカプセル化を可能にする方法を導入します。
私たちのアプローチは、(i) 配布外の状況で大幅に優れた堅牢性を達成しながら、さまざまなテストで比類のない結果を実証し、(ii) トレーニング (テキストによるデータ拡張) とポリシーを改善するための潜在空間シミュレーション (テキストによる) の組み込みを可能にします。
デバッグ中。
https://www.youtube.com/watch?v=4n-DJf8vXxo&feature=youtu.be で説明ビデオを確認し、https://drive-anywhere のプロジェクト Web ページでコードとデモを参照することをお勧めします。
.github.io/.

要約(オリジナル)

As autonomous driving technology matures, end-to-end methodologies have emerged as a leading strategy, promising seamless integration from perception to control via deep learning. However, existing systems grapple with challenges such as unexpected open set environments and the complexity of black-box models. At the same time, the evolution of deep learning introduces larger, multimodal foundational models, offering multi-modal visual and textual understanding. In this paper, we harness these multimodal foundation models to enhance the robustness and adaptability of autonomous driving systems, enabling out-of-distribution, end-to-end, multimodal, and more explainable autonomy. Specifically, we present an approach to apply end-to-end open-set (any environment/scene) autonomous driving that is capable of providing driving decisions from representations queryable by image and text. To do so, we introduce a method to extract nuanced spatial (pixel/patch-aligned) features from transformers to enable the encapsulation of both spatial and semantic features. Our approach (i) demonstrates unparalleled results in diverse tests while achieving significantly greater robustness in out-of-distribution situations, and (ii) allows the incorporation of latent space simulation (via text) for improved training (data augmentation via text) and policy debugging. We encourage the reader to check our explainer video at https://www.youtube.com/watch?v=4n-DJf8vXxo&feature=youtu.be and to view the code and demos on our project webpage at https://drive-anywhere.github.io/.

arxiv情報

著者 Tsun-Hsuan Wang,Alaa Maalouf,Wei Xiao,Yutong Ban,Alexander Amini,Guy Rosman,Sertac Karaman,Daniela Rus
発行日 2023-10-26 17:56:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク