Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles

要約

ロングテールコーナーケースの処理は、自動運転車 (AV) が直面する大きな課題です。
大規模言語モデル (LLM) は、優れた一般化および説明機能で特殊なケースを処理できる大きな可能性を秘めており、自動運転への適用に関する研究の関心が高まっていますが、厳密なモデルのパフォーマンスや膨大なコンピューティング リソースなど、取り組むべき技術的障壁がまだあります。
LLM の要件。
このペーパーでは、自動運転をサポートするためにリモート LLM またはエッジ LLM を適用する新しいアプローチを調査します。
このような LLM 支援運転システムの重要な問題は、LLM の運転理論とスキルの理解度を評価し、CAV の安全上重要な運転支援タスクを引き受ける資格があることを確認することです。
当社は、いくつかの独自の LLM モデル (OpenAI GPT モデル、Baidu Ernie および Ali QWen) およびオープンソース LLM モデル (Tsinghua MiniCPM-2B および MiniCPM-Llama3-V2.5) に対して、500 を超える複数の選択肢を備えた運転理論テストを設計および実行します。
理論テストの問題。
モデルの精度、コスト、処理遅延は実験から測定されます。
実験の結果、モデル GPT-4 はドメイン知識が向上してテストに合格し、Ernie の精度は 85% (合格しきい値の 86% をわずかに下回る) でしたが、GPT-3.5 を含む他の LLM モデルはテストに不合格でした。
画像を含むテスト問題では、マルチモーダル モデル GPT4-o は 96% という優れた精度結果を示し、MiniCPM-Llama3-V2.5 は 76% の精度を達成しました。
GPT-4 は CAV 運転支援アプリケーションにとってより強力な可能性を秘めていますが、モデル GPT4 の使用コストははるかに高く、GPT3.5 を使用するコストのほぼ 50 倍です。
結果は、CAV アプリケーションに対する既存の LLM の使用と、モデルのパフォーマンスとコストのバランスを決定するのに役立ちます。

要約(オリジナル)

Handling long tail corner cases is a major challenge faced by autonomous vehicles (AVs). While large language models (LLMs) hold great potentials to handle the corner cases with excellent generalization and explanation capabilities and received increasing research interest on application to autonomous driving, there are still technical barriers to be tackled, such as strict model performance and huge computing resource requirements of LLMs. In this paper, we investigate a new approach of applying remote or edge LLMs to support autonomous driving. A key issue for such LLM assisted driving system is the assessment of LLMs on their understanding of driving theory and skills, ensuring they are qualified to undertake safety critical driving assistance tasks for CAVs. We design and run driving theory tests for several proprietary LLM models (OpenAI GPT models, Baidu Ernie and Ali QWen) and open-source LLM models (Tsinghua MiniCPM-2B and MiniCPM-Llama3-V2.5) with more than 500 multiple-choices theory test questions. Model accuracy, cost and processing latency are measured from the experiments. Experiment results show that while model GPT-4 passes the test with improved domain knowledge and Ernie has an accuracy of 85% (just below the 86% passing threshold), other LLM models including GPT-3.5 fail the test. For the test questions with images, the multimodal model GPT4-o has an excellent accuracy result of 96%, and the MiniCPM-Llama3-V2.5 achieves an accuracy of 76%. While GPT-4 holds stronger potential for CAV driving assistance applications, the cost of using model GPT4 is much higher, almost 50 times of that of using GPT3.5. The results can help make decision on the use of the existing LLMs for CAV applications and balancing on the model performance and cost.

arxiv情報

著者 Zuoyin Tang,Jianhua He,Dashuai Pei,Kezhong Liu,Tao Gao
発行日 2024-07-24 12:10:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NI, cs.RO パーマリンク