Regularized Q-learning

要約

Q ラーニングは、強化学習コミュニティで広く使用されているアルゴリズムです。
ルックアップ テーブル設定では、その収束は十分に確立されています。
ただし、一次関数近似の場合、その動作は不安定であることが知られています。
この論文では、一次関数近似を使用した場合に収束する新しい Q 学習アルゴリズムを開発します。
適切な正則化項を追加するだけでアルゴリズムの収束が保証されることを証明します。
スイッチング システム モデルに基づいた最新の解析ツールを使用して、その安定性を証明します。
さらに、線形関数近似による Q 学習が発散することが知られている環境でも収束することを実験的に示します。
また、アルゴリズムが収束する解の誤差限界も提供します。

要約(オリジナル)

Q-learning is widely used algorithm in reinforcement learning community. Under the lookup table setting, its convergence is well established. However, its behavior is known to be unstable with the linear function approximation case. This paper develops a new Q-learning algorithm that converges when linear function approximation is used. We prove that simply adding an appropriate regularization term ensures convergence of the algorithm. We prove its stability using a recent analysis tool based on switching system models. Moreover, we experimentally show that it converges in environments where Q-learning with linear function approximation has known to diverge. We also provide an error bound on the solution where the algorithm converges.

arxiv情報

著者 Han-Dong Lim,Donghwan Lee
発行日 2024-05-13 15:02:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク