Maximum Entropy Model Correction in Reinforcement Learning

要約

モデル誤差による悪影響を軽減できる強化学習における近似モデルを用いた計画手法を提案し、理論的に分析します。
モデルが十分に正確であれば、真の値関数への収束も加速されます。
その重要なコンポーネントの 1 つは、最大エントロピー密度推定公式に基づいてモデルの次状態分布を補正する MaxEnt モデル補正 (MoCo) プロシージャです。
MoCo に基づいて、Model Correcting Value Iteration (MoCoVI) アルゴリズムとそのサンプルベースのバリアント MoCoDyna を導入します。
MoCoVI と MoCoDyna の収束が従来のモデルフリー アルゴリズムよりもはるかに高速になる可能性があることを示します。
従来のモデルベースのアルゴリズムとは異なり、MoCoVI と MoCoDyna は近似モデルを効果的に利用し、正しい値関数に収束します。

要約(オリジナル)

We propose and theoretically analyze an approach for planning with an approximate model in reinforcement learning that can reduce the adverse impact of model error. If the model is accurate enough, it accelerates the convergence to the true value function too. One of its key components is the MaxEnt Model Correction (MoCo) procedure that corrects the model’s next-state distributions based on a Maximum Entropy density estimation formulation. Based on MoCo, we introduce the Model Correcting Value Iteration (MoCoVI) algorithm, and its sampled-based variant MoCoDyna. We show that MoCoVI and MoCoDyna’s convergence can be much faster than the conventional model-free algorithms. Unlike traditional model-based algorithms, MoCoVI and MoCoDyna effectively utilize an approximate model and still converge to the correct value function.

arxiv情報

著者 Amin Rakhsha,Mete Kemertas,Mohammad Ghavamzadeh,Amir-massoud Farahmand
発行日 2023-11-29 18:00:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY, math.OC, stat.ML パーマリンク