要約
表形式の平均報酬時間差 (TD) 学習は、平均報酬強化学習においておそらく最も単純かつ最も基本的なポリシー評価アルゴリズムです。
発見から少なくとも 25 年を経て、ついに待望のほぼ確実な収束解析を提供できるようになりました。
つまり、非常に穏やかな条件下では、表の平均報酬 TD がサンプル パスに依存する固定点にほぼ確実に収束することを初めて証明しました。
この成功の鍵は、確率的クラスノセルスキー-マン反復の最近の進歩に基づいて構築された、マルコフノイズと加法的ノイズを使用した非拡張マッピングに関する新しい一般的な確率的近似結果です。
要約(オリジナル)
Tabular average reward Temporal Difference (TD) learning is perhaps the simplest and the most fundamental policy evaluation algorithm in average reward reinforcement learning. After at least 25 years since its discovery, we are finally able to provide a long-awaited almost sure convergence analysis. Namely, we are the first to prove that, under very mild conditions, tabular average reward TD converges almost surely to a sample path dependent fixed point. Key to this success is a new general stochastic approximation result concerning nonexpansive mappings with Markovian and additive noise, built on recent advances in stochastic Krasnoselskii-Mann iterations.
arxiv情報
著者 | Ethan Blaser,Shangtong Zhang |
発行日 | 2024-10-02 15:57:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google