AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

要約

Vision-Language-action(VLA)モデルの最近の進歩は、世界の知識と推論能力を活用することにより、エンドツーエンドの自律運転の有望を示しています。
ただし、現在のVLAモデルは、物理的に実行不可能なアクション出力、複雑なモデル構造、または不必要に長い推論に苦労することがよくあります。
この論文では、エンドツーエンドの自律運転の単一の自己回帰生成モデル内で推論とアクション生成を統合する新しいVLAモデルであるAutovlaを提案します。
Autovlaは、生の視覚入力と言語の指示から直接セマンティック推論と軌道計画を実行します。
連続軌道を離散的で実行可能なアクションにトークン化し、言語モデルへの直接統合を可能にします。
トレーニングには、モデルにデュアル思考モードを装備するために、監視された微調整を採用しています:高速思考(軌跡のみ)とゆっくりと思考(考え方の推論で強化されています)。
計画のパフォーマンスと効率をさらに向上させるために、グループ相対ポリシーの最適化(GRPO)に基づいた強化微調整方法を導入し、簡単なシナリオで不必要な推論を減らします。
Nuplan、Nuscenes、Waymo、およびCarlaを含む、現実世界およびシミュレートされたデータセットとベンチマーク全体の広範な実験は、オープンループ設定と閉ループ設定の両方でAutovlaの競争力を示しています。
定性的な結果は、多様なシナリオにおけるAutoVLAの適応的推論と正確な計画機能を紹介します。

要約(オリジナル)

Recent advancements in Vision-Language-Action (VLA) models have shown promise for end-to-end autonomous driving by leveraging world knowledge and reasoning capabilities. However, current VLA models often struggle with physically infeasible action outputs, complex model structures, or unnecessarily long reasoning. In this paper, we propose AutoVLA, a novel VLA model that unifies reasoning and action generation within a single autoregressive generation model for end-to-end autonomous driving. AutoVLA performs semantic reasoning and trajectory planning directly from raw visual inputs and language instructions. We tokenize continuous trajectories into discrete, feasible actions, enabling direct integration into the language model. For training, we employ supervised fine-tuning to equip the model with dual thinking modes: fast thinking (trajectory-only) and slow thinking (enhanced with chain-of-thought reasoning). To further enhance planning performance and efficiency, we introduce a reinforcement fine-tuning method based on Group Relative Policy Optimization (GRPO), reducing unnecessary reasoning in straightforward scenarios. Extensive experiments across real-world and simulated datasets and benchmarks, including nuPlan, nuScenes, Waymo, and CARLA, demonstrate the competitive performance of AutoVLA in both open-loop and closed-loop settings. Qualitative results showcase the adaptive reasoning and accurate planning capabilities of AutoVLA in diverse scenarios.

arxiv情報

著者 Zewei Zhou,Tianhui Cai,Seth Z. Zhao,Yun Zhang,Zhiyu Huang,Bolei Zhou,Jiaqi Ma
発行日 2025-06-16 17:58:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク