要約
人間のドライバーは、運転スタイルに関する個々の好みを示します。
これらの好みに自律的な車両を適応させることは、ユーザーの信頼と満足度に不可欠です。
ただし、既存のエンドツーエンドの運転アプローチは、多くの場合、事前定義された運転スタイルに依存しているか、適応のために継続的なユーザーフィードバックを必要とし、動的でコンテキスト依存の好みをサポートする能力を制限します。
私たちは、ドライビングスタイルの好みに合わせてランタイムの適応を可能にするエンドツーエンドの自律運転のための優先駆動型の最適化を備えた多目的補強学習(MORL)を使用して、新しいアプローチを提案します。
設定は、解釈可能なスタイルの目的$ \ unicode {x2013} $に沿って動作を変調する連続重量ベクトルとしてエンコードされます。
シングルポリシーエージェントは、視覚ベースの知覚を複雑な混合トラフィックシナリオに統合し、カーラシミュレーターを使用して多様な都市環境で評価されます。
実験結果は、エージェントが衝突回避とルートの完了に関してパフォーマンスを維持しながら、好みの変化に応じて運転行動を動的に適応させることを示しています。
要約(オリジナル)
Human drivers exhibit individual preferences regarding driving style. Adapting autonomous vehicles to these preferences is essential for user trust and satisfaction. However, existing end-to-end driving approaches often rely on predefined driving styles or require continuous user feedback for adaptation, limiting their ability to support dynamic, context-dependent preferences. We propose a novel approach using multi-objective reinforcement learning (MORL) with preference-driven optimization for end-to-end autonomous driving that enables runtime adaptation to driving style preferences. Preferences are encoded as continuous weight vectors to modulate behavior along interpretable style objectives$\unicode{x2013}$including efficiency, comfort, speed, and aggressiveness$\unicode{x2013}$without requiring policy retraining. Our single-policy agent integrates vision-based perception in complex mixed-traffic scenarios and is evaluated in diverse urban environments using the CARLA simulator. Experimental results demonstrate that the agent dynamically adapts its driving behavior according to changing preferences while maintaining performance in terms of collision avoidance and route completion.
arxiv情報
著者 | Hendrik Surmann,Jorge de Heuvel,Maren Bennewitz |
発行日 | 2025-05-08 13:16:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google