Finetuning Generative Trajectory Model with Reinforcement Learning from Human Feedback

要約

動的環境での自律運転には、人間のような適応軌道を生成することが不可欠です。
生成モデルは、実行可能な軌跡を合成することに有望を示していますが、データセットバイアスと分布シフトにより、人間の運転スタイルの微妙な変動性をキャプチャできないことがよくあります。
これに対処するために、モーションプランニングを多様な運転選好に合わせて設計された、生成軌道モデルの人間のフィードバック駆動型の微調整フレームワークであるTrajHFを紹介します。
Trajhfは、従来の模倣学習を超えてマルチモーダルの軌跡の生成を改良するために、人間のフィードバックでマルチコンディショナル脱類と補強学習を組み込みます。
これにより、安全性と実現可能性の制約を維持しながら、人間の運転の好みとのより良い整合性が可能になります。
TrajHFは、NAVSIMベンチマークで93.95のPDMSを達成し、他の方法を大幅に超えています。
Trajhfは、自律運転におけるパーソナライズされた適応性のある軌跡生成のための新しいパラダイムを設定します。

要約(オリジナル)

Generating human-like and adaptive trajectories is essential for autonomous driving in dynamic environments. While generative models have shown promise in synthesizing feasible trajectories, they often fail to capture the nuanced variability of human driving styles due to dataset biases and distributional shifts. To address this, we introduce TrajHF, a human feedback-driven finetuning framework for generative trajectory models, designed to align motion planning with diverse driving preferences. TrajHF incorporates multi-conditional denoiser and reinforcement learning with human feedback to refine multi-modal trajectory generation beyond conventional imitation learning. This enables better alignment with human driving preferences while maintaining safety and feasibility constraints. TrajHF achieves PDMS of 93.95 on NavSim benchmark, significantly exceeding other methods. TrajHF sets a new paradigm for personalized and adaptable trajectory generation in autonomous driving.

arxiv情報

著者 Derun Li,Jianwei Ren,Yue Wang,Xin Wen,Pengxiang Li,Leimeng Xu,Kun Zhan,Zhongpu Xia,Peng Jia,Xianpeng Lang,Ningyi Xu,Hang Zhao
発行日 2025-03-13 14:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク