A Systematic Approach to Design Real-World Human-in-the-Loop Deep Reinforcement Learning: Salient Features, Challenges and Trade-offs

要約

ディープ補強学習(DRL)の人気が高まっているため、人間のループ(HITL)アプローチは、意思決定の問題にアプローチし、人間とのコラボレーションの新しい機会を生み出す方法に革命をもたらす可能性があります。
この記事では、3つのタイプの学習、自己学習、模倣学習、転送学習を含む、新しい多層階層HITL DRLアルゴリズムを紹介します。
さらに、報酬、行動、デモの3つの形式の人間のインプットを検討します。
さらに、複雑な問題を解決する際のHITLの主な課題、トレードオフ、および利点、およびAIソリューションに体系的に統合される方法について説明します。
技術的な結果を検証するために、多くの敵のドローンが制限された領域を攻撃する現実世界の無人航空機(UAV)の問題を提示します。
目的は、敵のドローンがエリアに到達する前に敵のドローンを中和するためのスケーラブルなHITL DRLアルゴリズムを設計することです。
この目的のために、最初にCogmentと呼ばれる受賞歴のあるオープンソースHITLソフトウェアを使用してソリューションを実装します。
次に、(a)HITLがより速いトレーニングとより高いパフォーマンスにつながるなど、いくつかの興味深い結果を示します。
最後に、2つの実際の複雑なシナリオ、すなわち過負荷とおとり攻撃を解決する際の人間と協力の役割を説明します。

要約(オリジナル)

With the growing popularity of deep reinforcement learning (DRL), human-in-the-loop (HITL) approach has the potential to revolutionize the way we approach decision-making problems and create new opportunities for human-AI collaboration. In this article, we introduce a novel multi-layered hierarchical HITL DRL algorithm that comprises three types of learning: self learning, imitation learning and transfer learning. In addition, we consider three forms of human inputs: reward, action and demonstration. Furthermore, we discuss main challenges, trade-offs and advantages of HITL in solving complex problems and how human information can be integrated in the AI solution systematically. To verify our technical results, we present a real-world unmanned aerial vehicles (UAV) problem wherein a number of enemy drones attack a restricted area. The objective is to design a scalable HITL DRL algorithm for ally drones to neutralize the enemy drones before they reach the area. To this end, we first implement our solution using an award-winning open-source HITL software called Cogment. We then demonstrate several interesting results such as (a) HITL leads to faster training and higher performance, (b) advice acts as a guiding direction for gradient methods and lowers variance, and (c) the amount of advice should neither be too large nor too small to avoid over-training and under-training. Finally, we illustrate the role of human-AI cooperation in solving two real-world complex scenarios, i.e., overloaded and decoy attacks.

arxiv情報

著者 Jalal Arabneydi,Saiful Islam,Srijita Das,Sai Krishna Gottipati,William Duguay,Cloderic Mars,Matthew E. Taylor,Matthew Guzdial,Antoine Fagette,Younes Zerouali
発行日 2025-04-23 18:00:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク