要約
ロバストなマルチモーダル大規模言語モデル(MLLM)の能力を、自律走行コンテキストで直接活用することへの関心が高まっている。しかし、エンドツーエンドの自律走行モデルの設計とトレーニングには高いコストと複雑さが伴うため、多くの企業や研究機関にとっては困難である。これに対処するため、本研究では、PKRD-CoTと名付けたゼロショット思考連鎖(Zero-Shot Chain-of-Thought:Zero-Shot-CoT)プロンプト設計を提案することにより、自律走行システムへのMLLMのシームレスな統合を探求する。PKRD-CoTは、自律運転の4つの基本的な能力である知覚、知識、推論、意思決定に基づいている。そのため、人間の思考プロセスを段階的に模倣することで、ダイナミックな運転環境を理解し対応するのに適しており、リアルタイムシナリオでの意思決定を強化します。我々の設計は、MLLMが事前の経験なしに問題に取り組むことを可能にし、それによって非構造的な自律走行環境におけるMLLMの有用性を高める。実験では、PKRD-CoTを用いたGPT-4.0の自律走行タスクにおける卓越した性能を実証し、自律走行シナリオにおける有効性を強調した。さらに、我々のベンチマーク分析により、Claude、LLava1.6、Qwen-VL-Plusなどの他のMLLMに対するPKRD-CoTの有望な有効性が明らかになった。全体として、本研究は、GPT-4.0および自律走行における他のMLLMのための新規かつ統一的なプロンプト設計フレームワークに貢献し、同時に、包括的な比較を通じて、自律走行領域におけるこれらの広く認知されたMLLMの有効性を厳密に評価する。
要約(オリジナル)
There is growing interest in leveraging the capabilities of robust Multi-Modal Large Language Models (MLLMs) directly within autonomous driving contexts. However, the high costs and complexity of designing and training end-to-end autonomous driving models make them challenging for many enterprises and research entities. To address this, our study explores a seamless integration of MLLMs into autonomous driving systems by proposing a Zero-Shot Chain-of-Thought (Zero-Shot-CoT) prompt design named PKRD-CoT. PKRD-CoT is based on the four fundamental capabilities of autonomous driving: perception, knowledge, reasoning, and decision-making. This makes it particularly suitable for understanding and responding to dynamic driving environments by mimicking human thought processes step by step, thus enhancing decision-making in real-time scenarios. Our design enables MLLMs to tackle problems without prior experience, thereby increasing their utility within unstructured autonomous driving environments. In experiments, we demonstrate the exceptional performance of GPT-4.0 with PKRD-CoT across autonomous driving tasks, highlighting its effectiveness in autonomous driving scenarios. Additionally, our benchmark analysis reveals the promising viability of PKRD-CoT for other MLLMs, such as Claude, LLava1.6, and Qwen-VL-Plus. Overall, this study contributes a novel and unified prompt-design framework for GPT-4.0 and other MLLMs in autonomous driving, while also rigorously evaluating the efficacy of these widely recognized MLLMs in the autonomous driving domain through comprehensive comparisons.
arxiv情報
著者 | Xuewen Luo,Fan Ding,Yinsheng Song,Xiaofeng Zhang,Junnyong Loo |
発行日 | 2024-12-02 23:08:38+00:00 |
arxivサイト | arxiv_id(pdf) |