Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling

要約

安全で実行可能な軌道計画は、現実世界の自律運転システムに不可欠です。
ただし、既存の学習ベースの計画方法は、多くの場合、専門家のデモンストレーションに依存しています。これは、明示的な安全性の認識を欠いているだけでなく、最適ではない人間の運転データからのスピード違反などの危険な行動を継承するリスクもありません。
大規模な言語モデルの成功に触発されたPlan-R1は、安全性、快適性、交通規則のコンプライアンスなどの明示的な計画原則に導かれる軌道計画を順次予測タスクとして策定する新しい2段階軌道計画フレームワークであると提案します。
最初の段階では、専門家データの次のモーショントークン予測を介して、自己回帰軌道予測因子を訓練します。
第2段階では、ルールベースの報酬(衝突回避、速度制限など)を設計し、強化学習戦略であるグループ相対ポリシー最適化(GRPO)を使用してモデルを微調整して、これらの計画原則に予測を合わせます。
Nuplanベンチマークでの実験は、Plan-R1が計画の安全性と実現可能性を大幅に改善し、最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Safe and feasible trajectory planning is essential for real-world autonomous driving systems. However, existing learning-based planning methods often rely on expert demonstrations, which not only lack explicit safety awareness but also risk inheriting unsafe behaviors such as speeding from suboptimal human driving data. Inspired by the success of large language models, we propose Plan-R1, a novel two-stage trajectory planning framework that formulates trajectory planning as a sequential prediction task, guided by explicit planning principles such as safety, comfort, and traffic rule compliance. In the first stage, we train an autoregressive trajectory predictor via next motion token prediction on expert data. In the second stage, we design rule-based rewards (e.g., collision avoidance, speed limits) and fine-tune the model using Group Relative Policy Optimization (GRPO), a reinforcement learning strategy, to align its predictions with these planning principles. Experiments on the nuPlan benchmark demonstrate that our Plan-R1 significantly improves planning safety and feasibility, achieving state-of-the-art performance.

arxiv情報

著者 Xiaolong Tang,Meina Kan,Shiguang Shan,Xilin Chen
発行日 2025-05-23 09:22:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク