Opinion-Guided Reinforcement Learning

要約

強化学習では、学習エージェントのパフォーマンスを向上させるために人間による指導が望まれることがよくあります。
しかし、人間の洞察は、よく練られた議論ではなく、単なる意見や経験に基づいた推測であることがよくあります。
意見には不確実性が伴います(たとえば、問題についての部分的な情報の不足や無知など)が、確実な証拠が提出されるよりも早く現れます。
したがって、意見を通じて強化学習エージェントをガイドすると、よりパフォーマンスの高い学習プロセスが可能になる可能性がありますが、意見を正式な方法でモデル化して管理するという課題が伴います。
この記事では、意見を通じて強化学習エージェントをガイドする方法を紹介します。
この目的を達成するために、アドバイザーの意見をモデル化して管理するためのエンドツーエンドの方法を提供します。
このアプローチの有用性を評価するために、さまざまなレベルの不確実性で、複数のアドバイス戦略の下で、合成アドバイザーと人間のアドバイザーを使用してアプローチを評価します。
私たちの結果は、意見が不確実であっても、強化学習エージェントのパフォーマンスを向上させ、その結果、より高い報酬、より効率的な探索、より優れた強化されたポリシーをもたらすことを示しています。
簡略化されたトポロジ実行例でアプローチを示していますが、私たちのアプローチはより高次元の複雑な問題にも適用できます。

要約(オリジナル)

Human guidance is often desired in reinforcement learning to improve the performance of the learning agent. However, human insights are often mere opinions and educated guesses rather than well-formulated arguments. While opinions are subject to uncertainty, e.g., due to partial informedness or ignorance about a problem, they also emerge earlier than hard evidence could be produced. Thus, guiding reinforcement learning agents through opinions offers the potential for more performant learning processes, but comes with the challenge of modeling and managing opinions in a formal way. In this article, we present a method to guide reinforcement learning agents through opinions. To this end, we provide an end-to-end method to model and manage advisors’ opinions. To assess the utility of the approach, we evaluate it with synthetic and human advisors, at different levels of uncertainty, and under multiple advise strategies. Our results indicate that opinions, even if uncertain, improve the performance of reinforcement learning agents, resulting in higher rewards, more efficient exploration, and a better reinforced policy. Although we demonstrate our approach in a simplified topological running example, our approach is applicable to complex problems with higher dimensions as well.

arxiv情報

著者 Kyanna Dagenais,Istvan David
発行日 2024-05-27 15:52:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク