要約
自動運転の分野では、安全で信頼できる自動運転政策を策定することが依然として大きな課題です。
最近、ヒューマン フィードバックによる強化学習 (RLHF) が、トレーニングの安全性とサンプリング効率を向上させる可能性があるため、大きな注目を集めています。
それにもかかわらず、既存の RLHF 対応手法は、不完全な人間のデモンストレーションに直面するとたじろぐことが多く、トレーニングの変動や、ルールベースのアプローチよりもパフォーマンスの低下につながる可能性があります。
人間の学習プロセスにヒントを得て、私たちはヒューマン フィードバックによる物理強化強化学習 (PE-RLHF) を提案します。
この新しいフレームワークは、人間のフィードバック (人間の介入やデモンストレーションなど) と物理知識 (交通流モデルなど) を強化学習のトレーニング ループに相乗的に統合します。
PE-RLHF の主な利点は、人間によるフィードバックの品質が低下した場合でも、学習されたポリシーが少なくとも所定の物理ベースのポリシーと同等に機能することが保証され、信頼できる安全性の向上が保証されることです。
PE-RLHF は、人間と物理ベースのアクションの間で動的なアクションを選択するための物理強化ヒューマン AI (PE-HAI) 協調パラダイムを導入し、人間の好みを捕捉する代理値関数を使用した報酬なしのアプローチを採用し、最小限の機能を組み込んでいます。
人間の指導者の認知的負荷を軽減する介入メカニズム。
多様な運転シナリオにわたる広範な実験により、PE-RLHF は従来の方法を大幅に上回り、人間によるフィードバックの質が変化しても、安全性、効率性、汎用性において最先端 (SOTA) のパフォーマンスを達成できることが実証されました。
PE-RLHF の背後にある哲学は、自動運転技術を進歩させるだけでなく、他の安全性が重要な領域にも貴重な洞察を提供します。
デモビデオとコードは、\https://zilin-huang.github.io/PE-RLHF-website/ から入手できます。
要約(オリジナル)
In the field of autonomous driving, developing safe and trustworthy autonomous driving policies remains a significant challenge. Recently, Reinforcement Learning with Human Feedback (RLHF) has attracted substantial attention due to its potential to enhance training safety and sampling efficiency. Nevertheless, existing RLHF-enabled methods often falter when faced with imperfect human demonstrations, potentially leading to training oscillations or even worse performance than rule-based approaches. Inspired by the human learning process, we propose Physics-enhanced Reinforcement Learning with Human Feedback (PE-RLHF). This novel framework synergistically integrates human feedback (e.g., human intervention and demonstration) and physics knowledge (e.g., traffic flow model) into the training loop of reinforcement learning. The key advantage of PE-RLHF is its guarantee that the learned policy will perform at least as well as the given physics-based policy, even when human feedback quality deteriorates, thus ensuring trustworthy safety improvements. PE-RLHF introduces a Physics-enhanced Human-AI (PE-HAI) collaborative paradigm for dynamic action selection between human and physics-based actions, employs a reward-free approach with a proxy value function to capture human preferences, and incorporates a minimal intervention mechanism to reduce the cognitive load on human mentors. Extensive experiments across diverse driving scenarios demonstrate that PE-RLHF significantly outperforms traditional methods, achieving state-of-the-art (SOTA) performance in safety, efficiency, and generalizability, even with varying quality of human feedback. The philosophy behind PE-RLHF not only advances autonomous driving technology but can also offer valuable insights for other safety-critical domains. Demo video and code are available at: \https://zilin-huang.github.io/PE-RLHF-website/
arxiv情報
著者 | Zilin Huang,Zihao Sheng,Sikai Chen |
発行日 | 2024-09-05 08:07:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google