Smoothed Q-learning

要約

強化学習では、Q 学習アルゴリズムが最適解に確実に収束します。
ただし、他の人が実証したように、Q ラーニングは値を過大評価する可能性もあり、その結果、役に立たない状態の探索に時間がかかりすぎます。
ダブル Q 学習は、収束が遅くなるという犠牲を払って過大評価の問題の一部を軽減する、証明可能な収束の代替手段です。
最大操作を平均に置き換える代替アルゴリズムを導入し、過大評価を軽減しながら標準の Q 学習と同様の収束を維持できる、証明可能な収束オフポリシー アルゴリズムももたらします。

要約(オリジナル)

In Reinforcement Learning the Q-learning algorithm provably converges to the optimal solution. However, as others have demonstrated, Q-learning can also overestimate the values and thereby spend too long exploring unhelpful states. Double Q-learning is a provably convergent alternative that mitigates some of the overestimation issues, though sometimes at the expense of slower convergence. We introduce an alternative algorithm that replaces the max operation with an average, resulting also in a provably convergent off-policy algorithm which can mitigate overestimation yet retain similar convergence as standard Q-learning.

arxiv情報

著者 David Barber
発行日 2023-03-15 13:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク