要約
Q ラーニングは、古典的な値反復の確率的近似バージョンです。
文献によれば、Q 学習には最大化バイアスと遅い収束の両方が発生することが証明されています。
最近、マルチステップ アルゴリズムが既存の方法に比べて実際的な利点を示しています。
この論文では、重要度サンプリングを行わない、新しいオフポリシーの 2 ステップ Q 学習アルゴリズムを提案します。
適切な仮定により、提案された 2 ステップ Q 学習の反復は制限されており、ほぼ確実に最適な Q 値に収束することが示されました。
この研究では、2 ステップ Q 学習のスムーズ バージョンの収束分析、つまり max 関数を log-sum-exp 関数に置き換えることにも取り組んでいます。
提案されたアルゴリズムは堅牢で実装が簡単です。
最後に、ルーレット問題、最大化バイアス問題、ランダムに生成されたマルコフ決定プロセスなどのベンチマーク問題で提案されたアルゴリズムをテストし、文献で利用可能な既存の方法と比較します。
数値実験では、2 ステップ Q 学習とそのスムーズな変形の両方の優れたパフォーマンスが実証されています。
要約(オリジナル)
Q-learning is a stochastic approximation version of the classic value iteration. The literature has established that Q-learning suffers from both maximization bias and slower convergence. Recently, multi-step algorithms have shown practical advantages over existing methods. This paper proposes a novel off-policy two-step Q-learning algorithms, without importance sampling. With suitable assumption it was shown that, iterates in the proposed two-step Q-learning is bounded and converges almost surely to the optimal Q-values. This study also address the convergence analysis of the smooth version of two-step Q-learning, i.e., by replacing max function with the log-sum-exp function. The proposed algorithms are robust and easy to implement. Finally, we test the proposed algorithms on benchmark problems such as the roulette problem, maximization bias problem, and randomly generated Markov decision processes and compare it with the existing methods available in literature. Numerical experiments demonstrate the superior performance of both the two-step Q-learning and its smooth variants.
arxiv情報
著者 | Antony Vijesh,Shreyas S R |
発行日 | 2024-07-02 15:39:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google