Entropy Regularized Reinforcement Learning Using Large Deviation Theory

要約

タイトル:Large Deviation Theoryを用いたEntropy Regularized Reinforcement Learning

要約:
– Reinforcement Learning(RL)は、物理学の複雑な最適化問題に対して適用されるようになり、機械学習の重要な研究分野となっている。
– 物理学の概念は、エントロピー正則化RLなどの進歩をもたらすことでRLに貢献してきた。
– しかし、エントロピー正則化RLの最適化のための解析的解決策を得ることは現在のオープンな問題である。
– この論文では、希少なイベントに依存するマルコフ過程に着目した非平衡統計力学の研究とエントロピー正則化RLをマッピングすることを確立する。 長期間にわたり、大偏差理論からアプローチを適用して、RLのマルコフ決定過程(MDP)モデルにおける最適方針と最適動力学の正確な解析的結果を導出する。
– 得られた結果はシミュレーションによって検証され、エントロピー正則化RLの新しい解析的および計算的枠組みを提供する。
– この研究で確立されたマッピングは、RLと非平衡統計力学の現在の研究を結びつけ、一方の分野からもう一方の分野の未解決問題に分析的および計算的アプローチが応用される新しいアプローチを開く。

要約(オリジナル)

Reinforcement learning (RL) is an important field of research in machine learning that is increasingly being applied to complex optimization problems in physics. In parallel, concepts from physics have contributed to important advances in RL with developments such as entropy-regularized RL. While these developments have led to advances in both fields, obtaining analytical solutions for optimization in entropy-regularized RL is currently an open problem. In this paper, we establish a mapping between entropy-regularized RL and research in non-equilibrium statistical mechanics focusing on Markovian processes conditioned on rare events. In the long-time limit, we apply approaches from large deviation theory to derive exact analytical results for the optimal policy and optimal dynamics in Markov Decision Process (MDP) models of reinforcement learning. The results obtained lead to a novel analytical and computational framework for entropy-regularized RL which is validated by simulations. The mapping established in this work connects current research in reinforcement learning and non-equilibrium statistical mechanics, thereby opening new avenues for the application of analytical and computational approaches from one field to cutting-edge problems in the other.

arxiv情報

著者 Argenis Arriojas,Jacob Adamczyk,Stas Tiomkin,Rahul V. Kulkarni
発行日 2023-04-10 20:22:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cond-mat.stat-mech, cs.AI, cs.LG, stat.ML パーマリンク