CoT-Drive: Efficient Motion Forecasting for Autonomous Driving with LLMs and Chain-of-Thought Prompting

要約

安全な自律運転(AD)には、正確なモーション予測が重要です。
この研究では、大規模な言語モデル(LLMS)を活用することによりモーション予測を強化する新しいアプローチと、考え方(COT)プロンプトの方法を提案します。
教師の学生の知識蒸留戦略を導入して、LLMSの高度なシーン理解機能を軽量言語モデル(LMS)に効果的に転送し、COTドライブが包括的なシーンの理解と一般化機能を維持しながら、エッジデバイスでリアルタイムで動作するようにします。
追加のトレーニングなしでLLMSのコットプロンプトテクニックを活用することにより、COT-driveは、複雑な交通環境の理解を大幅に改善するセマンティックな注釈を生成し、それにより予測の精度と堅牢性を高めます。
さらに、コンテキスト固有のセマンティックアノテーションを生成するために微調整する軽量LMS用に設計された、高速道路テキストと都市テキストの2つの新しいシーン説明データセットを提示します。
5つの実際のデータセットの包括的な評価は、COTドライブが既存のモデルを上回ることを示しており、複雑なトラフィックシナリオの処理におけるその有効性と効率性を強調しています。
全体として、この研究は、この分野でのLLMの実用化を考慮した最初の研究です。
モーション予測のための軽量LLM代理のトレーニングと使用を先駆けて、新しいベンチマークの設定、LLMSをADシステムに統合する可能性を紹介します。

要約(オリジナル)

Accurate motion forecasting is crucial for safe autonomous driving (AD). This study proposes CoT-Drive, a novel approach that enhances motion forecasting by leveraging large language models (LLMs) and a chain-of-thought (CoT) prompting method. We introduce a teacher-student knowledge distillation strategy to effectively transfer LLMs’ advanced scene understanding capabilities to lightweight language models (LMs), ensuring that CoT-Drive operates in real-time on edge devices while maintaining comprehensive scene understanding and generalization capabilities. By leveraging CoT prompting techniques for LLMs without additional training, CoT-Drive generates semantic annotations that significantly improve the understanding of complex traffic environments, thereby boosting the accuracy and robustness of predictions. Additionally, we present two new scene description datasets, Highway-Text and Urban-Text, designed for fine-tuning lightweight LMs to generate context-specific semantic annotations. Comprehensive evaluations of five real-world datasets demonstrate that CoT-Drive outperforms existing models, highlighting its effectiveness and efficiency in handling complex traffic scenarios. Overall, this study is the first to consider the practical application of LLMs in this field. It pioneers the training and use of a lightweight LLM surrogate for motion forecasting, setting a new benchmark and showcasing the potential of integrating LLMs into AD systems.

arxiv情報

著者 Haicheng Liao,Hanlin Kong,Bonan Wang,Chengyue Wang,Wang Ye,Zhengbing He,Chengzhong Xu,Zhenning Li
発行日 2025-03-10 12:17:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク