Human as AI Mentor: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving

要約

自動運転車 (AV) は大幅に進歩しているにもかかわらず、AV の安全性と交通の流れの効率性の両方を確保する運転ポリシーの開発はまだ十分に検討されていません。
この論文では、AI メンターベースの深層強化学習 (HAIM-DRL) フレームワークと呼ばれる強化された人間参加型強化学習手法を提案します。これは、混合交通隊列での安全で効率的な自動運転を促進します。
人間の学習プロセスからインスピレーションを得て、私たちはまず、AI メンターとしての人間 (HAIM) と呼ばれる、人間の知能を AI に効果的に注入する革新的な学習パラダイムを導入します。
このパラダイムでは、人間の専門家が AI エージェントの指導者として機能します。
エージェントが不確実な環境を十分に探索できるようにしながら、人間の専門家が危険な状況で制御を行い、潜在的な事故を回避するための正しい行動を示すことができます。
一方、エージェントは交通流の乱れを最小限に抑えるように誘導され、それによって交通流の効率が最適化されます。
詳細には、HAIM-DRL は、自由探索と人間による部分的なデモンストレーションから収集されたデータを 2 つのトレーニング ソースとして活用します。
注目すべきことに、報酬関数を手動で設計する複雑なプロセスを回避しています。
代わりに、人間の部分的なデモンストレーションから代理状態アクション値を直接導き出し、エージェントのポリシー学習をガイドします。
さらに、人間のメンターの認知的負荷を軽減するために、最小限の介入手法を採用しています。
比較結果から、HAIM-DRL は運転の安全性、サンプリング効率、交通流の乱れの軽減、目に見えない交通シナリオへの一般化性において従来の方法よりも優れていることが示されています。
この論文のコードとデモ ビデオは、https://zilin-huang.github.io/HAIM-DRL-website/ からアクセスできます。

要約(オリジナル)

Despite significant progress in autonomous vehicles (AVs), the development of driving policies that ensure both the safety of AVs and traffic flow efficiency has not yet been fully explored. In this paper, we propose an enhanced human-in-the-loop reinforcement learning method, termed the Human as AI mentor-based deep reinforcement learning (HAIM-DRL) framework, which facilitates safe and efficient autonomous driving in mixed traffic platoon. Drawing inspiration from the human learning process, we first introduce an innovative learning paradigm that effectively injects human intelligence into AI, termed Human as AI mentor (HAIM). In this paradigm, the human expert serves as a mentor to the AI agent. While allowing the agent to sufficiently explore uncertain environments, the human expert can take control in dangerous situations and demonstrate correct actions to avoid potential accidents. On the other hand, the agent could be guided to minimize traffic flow disturbance, thereby optimizing traffic flow efficiency. In detail, HAIM-DRL leverages data collected from free exploration and partial human demonstrations as its two training sources. Remarkably, we circumvent the intricate process of manually designing reward functions; instead, we directly derive proxy state-action values from partial human demonstrations to guide the agents’ policy learning. Additionally, we employ a minimal intervention technique to reduce the human mentor’s cognitive load. Comparative results show that HAIM-DRL outperforms traditional methods in driving safety, sampling efficiency, mitigation of traffic flow disturbance, and generalizability to unseen traffic scenarios. The code and demo videos for this paper can be accessed at: https://zilin-huang.github.io/HAIM-DRL-website/

arxiv情報

著者 Zilin Huang,Zihao Sheng,Chengyuan Ma,Sikai Chen
発行日 2024-02-19 04:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク