要約
ポリシーが訪問する状態とアクションの分布に基づいた新しい最大エントロピー強化学習フレームワークを導入します。
より正確には、制御されるマルコフ決定プロセスの報酬関数に固有の報酬関数が追加されます。
各状態とアクションについて、この固有の報酬は、次のタイム ステップ中に訪れる状態とアクション (またはこれらの状態とアクションからの特徴) の割引分布の相対エントロピーです。
我々はまず、本質的報酬の期待割引額を最大化する最適探索政策が、いくつかの仮定の下で意思決定プロセスの状態行動価値関数の下限を最大化する政策でもあることを証明する。
また、本質的報酬の定義で使用される訪問分布が短縮演算子の固定点であることも証明します。
次に、既存のアルゴリズムを適応させてこの固定点を学習し、探索を強化するための固有の報酬を計算する方法について説明します。
新しい実用的なオフポリシー最大エントロピー強化学習アルゴリズムがついに導入されました。
経験的に、探査ポリシーは状態アクション空間を十分にカバーしており、高性能の制御ポリシーが効率的に計算されます。
要約(オリジナル)
We introduce a new maximum entropy reinforcement learning framework based on the distribution of states and actions visited by a policy. More precisely, an intrinsic reward function is added to the reward function of the Markov decision process that shall be controlled. For each state and action, this intrinsic reward is the relative entropy of the discounted distribution of states and actions (or features from these states and actions) visited during the next time steps. We first prove that an optimal exploration policy, which maximizes the expected discounted sum of intrinsic rewards, is also a policy that maximizes a lower bound on the state-action value function of the decision process under some assumptions. We also prove that the visitation distribution used in the intrinsic reward definition is the fixed point of a contraction operator. Following, we describe how to adapt existing algorithms to learn this fixed point and compute the intrinsic rewards to enhance exploration. A new practical off-policy maximum entropy reinforcement learning algorithm is finally introduced. Empirically, exploration policies have good state-action space coverage, and high-performing control policies are computed efficiently.
arxiv情報
著者 | Adrien Bolland,Gaspard Lambrechts,Damien Ernst |
発行日 | 2024-12-09 16:56:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google