要約
意思決定における一般的なツールである強化学習 (RL) は、政策を別個に扱うことなく、関連する累積収益/報酬に基づいてさまざまな経験から学習します。
それどころか、人間は多くの場合、さまざまなレベルのパフォーマンスを区別し、最高のパフォーマンスを得るために意思決定を改善するための根本的な傾向を抽出することを学びます。
これを動機として、この論文は、効果的な政策学習のために収集された経験を区別することによって人間の意思決定プロセスを模倣する新しい RL 手法を提案します。
主なアイデアは、評価と名付けられたさまざまなパフォーマンス レベルのエクスペリエンスから重要な方向性情報を抽出し、さまざまな評価を持つこれらのエクスペリエンスから望ましい偏差に向けてポリシーを更新できるようにすることです。
具体的には、現在の保険と、異なる格付けによる失敗経験との間の分布の類似性にペナルティを課し、格付けクラスに基づいてペナルティ条件に異なる重みを割り当てる新しい保険契約損失関数を提案します。
一方、これらの評価サンプルからの報酬学習は、評価サンプルからの統合された報酬およびポリシー学習に向けて、新しいポリシー損失と統合することができます。
統合された報酬とポリシーの損失関数を最適化すると、累積報酬を最大化し、最も低いパフォーマンス レベルからはほとんどのペナルティを課し、最高のパフォーマンス レベルからは最も少ないペナルティを課すためのポリシー改善の方向性の発見につながります。
提案された方法の有効性を評価するために、報酬学習のみを使用した既存の評価ベースの強化学習方法よりも収束と全体的なパフォーマンスが向上していることを示す、いくつかの典型的な環境での実験結果を示します。
要約(オリジナル)
Reinforcement learning (RL), a common tool in decision making, learns policies from various experiences based on the associated cumulative return/rewards without treating them differently. On the contrary, humans often learn to distinguish from different levels of performance and extract the underlying trends towards improving their decision making for best performance. Motivated by this, this paper proposes a novel RL method that mimics humans’ decision making process by differentiating among collected experiences for effective policy learning. The main idea is to extract important directional information from experiences with different performance levels, named ratings, so that policies can be updated towards desired deviation from these experiences with different ratings. Specifically, we propose a new policy loss function that penalizes distribution similarities between the current policy and failed experiences with different ratings, and assign different weights to the penalty terms based on the rating classes. Meanwhile, reward learning from these rated samples can be integrated with the new policy loss towards an integrated reward and policy learning from rated samples. Optimizing the integrated reward and policy loss function will lead to the discovery of directions for policy improvement towards maximizing cumulative rewards and penalizing most from the lowest performance level while least from the highest performance level. To evaluate the effectiveness of the proposed method, we present results for experiments on a few typical environments that show improved convergence and overall performance over the existing rating-based reinforcement learning method with only reward learning.
arxiv情報
著者 | Mingkang Wu,Devin White,Vernon Lawhern,Nicholas R. Waytowich,Yongcan Cao |
発行日 | 2025-01-13 17:19:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google