RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model

要約

「ブラックボックス」モデルを利用したロボットは、人間が理解でき、信頼できる説明を提供する必要があります。
したがって、説明可能性は、特に複雑な自動運転において、信頼できる自動運転の意思決定において重要な役割を果たし、エンドユーザー間の透明性と受け入れを促進します。
マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、自然言語の説明とともに制御予測を生成することにより、駆動エージェントとしての説明可能性を高める有望な可能性が示されています。
ただし、高価なアノテーション コストと、異なるデータセット間の大きなドメイン ギャップによる深刻なデータ不足により、堅牢で汎用性のあるシステムの開発は非常に困難なタスクとなっています。
さらに、MLLM の法外に高価なトレーニング要件と壊滅的な忘却という未解決の問題により、展開後の汎用性がさらに制限されます。
これらの課題に対処するために、我々は、高性能、説明可能、一般化可能な自動運転のためにコンテキスト内学習を活用する、新しい検索拡張マルチモーダル大規模言語モデルである RAG-Driver を紹介します。
取得した専門家のデモンストレーションに基づいて、RAG-Driver が運転動作の説明、正当化、および制御信号の予測を生成する際に最先端のパフォーマンスを達成していることを経験的に検証します。
さらに重要なのは、追加のトレーニングを行わなくても、目に見えない環境に対して優れたゼロショット汎化機能を発揮することです。

要約(オリジナル)

Robots powered by ‘blackbox’ models need to provide human-understandable explanations which we can trust. Hence, explainability plays a critical role in trustworthy autonomous decision-making to foster transparency and acceptance among end users, especially in complex autonomous driving. Recent advancements in Multi-Modal Large Language models (MLLMs) have shown promising potential in enhancing the explainability as a driving agent by producing control predictions along with natural language explanations. However, severe data scarcity due to expensive annotation costs and significant domain gaps between different datasets makes the development of a robust and generalisable system an extremely challenging task. Moreover, the prohibitively expensive training requirements of MLLM and the unsolved problem of catastrophic forgetting further limit their generalisability post-deployment. To address these challenges, we present RAG-Driver, a novel retrieval-augmented multi-modal large language model that leverages in-context learning for high-performance, explainable, and generalisable autonomous driving. By grounding in retrieved expert demonstration, we empirically validate that RAG-Driver achieves state-of-the-art performance in producing driving action explanations, justifications, and control signal prediction. More importantly, it exhibits exceptional zero-shot generalisation capabilities to unseen environments without further training endeavours.

arxiv情報

著者 Jianhao Yuan,Shuyang Sun,Daniel Omeiza,Bo Zhao,Paul Newman,Lars Kunze,Matthew Gadd
発行日 2024-02-16 16:57:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク