要約
この論文では、パーソナライズされた自律運転(PAD)のための新しい閉ループフレームワークであるPadriverを提案します。
マルチモーダル大手言語モデル(MLLM)に基づいて構築されたPadriverは、ストリーミングフレームとパーソナライズされたテキストプロンプトを入力として取得します。
シーンの理解、危険レベルの推定、および行動の決定を自動的に実行します。
予測される危険レベルは、潜在的なアクションのリスクを反映しており、プリセットのパーソナライズされたプロンプトに対応する最終アクションの明示的な参照を提供します。
さらに、ハイウェイ-ENVシミュレーターに基づいてパッドハイウェイという名前の閉ループベンチマークを構築して、トラフィックルールの下での決定パフォーマンスを包括的に評価します。
データセットには、PADの動作分析の開発を容易にするために、高品質の注釈付きの250時間のビデオが含まれています。
構築されたベンチマークでの実験結果は、パドリバーがさまざまな評価メトリックに関する最先端のアプローチを上回り、さまざまな運転モードを有効にすることを示しています。
要約(オリジナル)
In this paper, we propose PADriver, a novel closed-loop framework for personalized autonomous driving (PAD). Built upon Multi-modal Large Language Model (MLLM), PADriver takes streaming frames and personalized textual prompts as inputs. It autoaggressively performs scene understanding, danger level estimation and action decision. The predicted danger level reflects the risk of the potential action and provides an explicit reference for the final action, which corresponds to the preset personalized prompt. Moreover, we construct a closed-loop benchmark named PAD-Highway based on Highway-Env simulator to comprehensively evaluate the decision performance under traffic rules. The dataset contains 250 hours videos with high-quality annotation to facilitate the development of PAD behavior analysis. Experimental results on the constructed benchmark show that PADriver outperforms state-of-the-art approaches on different evaluation metrics, and enables various driving modes.
arxiv情報
著者 | Genghua Kou,Fan Jia,Weixin Mao,Yingfei Liu,Yucheng Zhao,Ziheng Zhang,Osamu Yoshie,Tiancai Wang,Ying Li,Xiangyu Zhang |
発行日 | 2025-05-08 13:36:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google