RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model

要約

私たちは、不透明な AI 手法を使用するロボットを信頼する必要があります。
彼らは私たちに自らのことを説明する必要があり、私たちは彼らの説明を信頼する必要があります。
この点において、説明可能性は、特に複雑な自動運転において、信頼できる自動運転の意思決定において重要な役割を果たし、エンドユーザーの間で透明性と受け入れを促進します。
マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、自然言語の説明とともに制御予測を生成することにより、駆動エージェントとしての説明可能性を高める有望な可能性が示されています。
ただし、高価なアノテーション コストと、異なるデータセット間の大きなドメイン ギャップによる深刻なデータ不足により、堅牢で汎用性のあるシステムの開発は非常に困難なタスクとなっています。
さらに、MLLM の法外に高価なトレーニング要件と壊滅的な忘却という未解決の問題により、展開後の汎用性がさらに制限されます。
これらの課題に対処するために、我々は、高性能、説明可能、一般化可能な自動運転のためにコンテキスト内学習を活用する、新しい検索拡張マルチモーダル大規模言語モデルである RAG-Driver を紹介します。
取得した専門家のデモンストレーションに基づいて、RAG-Driver が運転動作の説明、正当化、および制御信号の予測を生成する際に最先端のパフォーマンスを達成していることを経験的に検証します。
さらに重要なのは、追加のトレーニングを行わなくても、目に見えない環境に対して優れたゼロショット汎化機能を発揮することです。

要約(オリジナル)

We need to trust robots that use often opaque AI methods. They need to explain themselves to us, and we need to trust their explanation. In this regard, explainability plays a critical role in trustworthy autonomous decision-making to foster transparency and acceptance among end users, especially in complex autonomous driving. Recent advancements in Multi-Modal Large Language models (MLLMs) have shown promising potential in enhancing the explainability as a driving agent by producing control predictions along with natural language explanations. However, severe data scarcity due to expensive annotation costs and significant domain gaps between different datasets makes the development of a robust and generalisable system an extremely challenging task. Moreover, the prohibitively expensive training requirements of MLLM and the unsolved problem of catastrophic forgetting further limit their generalisability post-deployment. To address these challenges, we present RAG-Driver, a novel retrieval-augmented multi-modal large language model that leverages in-context learning for high-performance, explainable, and generalisable autonomous driving. By grounding in retrieved expert demonstration, we empirically validate that RAG-Driver achieves state-of-the-art performance in producing driving action explanations, justifications, and control signal prediction. More importantly, it exhibits exceptional zero-shot generalisation capabilities to unseen environments without further training endeavours.

arxiv情報

著者 Jianhao Yuan,Shuyang Sun,Daniel Omeiza,Bo Zhao,Paul Newman,Lars Kunze,Matthew Gadd
発行日 2024-05-29 14:44:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク