要約
自動運転技術の追求は、知覚、意思決定、制御システムの高度な統合にかかっています。
従来のアプローチは、データ駆動型でもルールベースでも、複雑な運転環境の微妙な違いや他の道路利用者の意図を把握できないことが妨げとなってきました。
これは、特に安全で信頼性の高い自動運転に必要な常識的推論と微妙な状況の理解を開発する際に、大きなボトルネックとなっていました。
ビジュアル言語モデル (VLM) の出現は、完全自動運転の実現における新たなフロンティアを表しています。
このレポートでは、最新の最先端 VLM、\modelnamefull、および自動運転シナリオにおけるそのアプリケーションの徹底的な評価を提供します。
私たちは、運転シーンを理解し、推論し、意思決定を行い、最終的にはドライバーの立場で行動するモデルの能力を調査します。
当社の包括的なテストは、基本的なシーン認識から複雑な因果推論、さまざまな条件下でのリアルタイムの意思決定まで多岐にわたります。
私たちの調査結果では、 \modelname が既存の自律システムと比較して、シーンの理解と因果推論において優れたパフォーマンスを示していることが明らかになりました。
これは、実際の運転状況において、配布外のシナリオを処理し、意図を認識し、情報に基づいた意思決定を行う可能性を示しています。
しかし、特に方向識別、信号機の認識、視覚の接地、空間推論のタスクにおいては課題が残っています。
これらの制限は、さらなる研究開発の必要性を強調しています。
プロジェクトは現在 GitHub で公開されており、関係者は \url{https://github.com/PJLab-ADG/GPT4V-AD-Exploration} にアクセスして利用できます。
要約(オリジナル)
The pursuit of autonomous driving technology hinges on the sophisticated integration of perception, decision-making, and control systems. Traditional approaches, both data-driven and rule-based, have been hindered by their inability to grasp the nuance of complex driving environments and the intentions of other road users. This has been a significant bottleneck, particularly in the development of common sense reasoning and nuanced scene understanding necessary for safe and reliable autonomous driving. The advent of Visual Language Models (VLM) represents a novel frontier in realizing fully autonomous vehicle driving. This report provides an exhaustive evaluation of the latest state-of-the-art VLM, \modelnamefull, and its application in autonomous driving scenarios. We explore the model’s abilities to understand and reason about driving scenes, make decisions, and ultimately act in the capacity of a driver. Our comprehensive tests span from basic scene recognition to complex causal reasoning and real-time decision-making under varying conditions. Our findings reveal that \modelname demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems. It showcases the potential to handle out-of-distribution scenarios, recognize intentions, and make informed decisions in real driving contexts. However, challenges remain, particularly in direction discernment, traffic light recognition, vision grounding, and spatial reasoning tasks. These limitations underscore the need for further research and development. Project is now available on GitHub for interested parties to access and utilize: \url{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}
arxiv情報
著者 | Licheng Wen,Xuemeng Yang,Daocheng Fu,Xiaofeng Wang,Pinlong Cai,Xin Li,Tao Ma,Yingxuan Li,Linran Xu,Dengke Shang,Zheng Zhu,Shaoyan Sun,Yeqi Bai,Xinyu Cai,Min Dou,Shuanglu Hu,Botian Shi |
発行日 | 2023-11-09 12:58:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google