要約
この論文の目的は、標準的な Q 学習における過大評価バイアスを効果的に調整できる、ダミー敵対的 Q 学習 (DAQ) と呼ばれる、ダミー敵対的プレーヤーを備えた新しい Q 学習アルゴリズムを提案することです。
ダミー プレーヤーを使用すると、学習を 2 プレーヤーのゼロサム ゲームとして定式化できます。
提案された DAQ は、過大評価バイアスを制御するために、maxmin Q 学習や minmax Q 学習 (この論文で提案) などのいくつかの Q 学習バリエーションを単一のフレームワークに統合します。
提案された DAQ は、ダミーの敵対的な動作を通じて過大評価バイアスを抑制するシンプルだが効果的な方法であり、既製の強化学習アルゴリズムに簡単に適用してパフォーマンスを向上させることができます。
DAQ の有限時間収束は、敵対的な Q 学習を適用することにより、統合的な観点から分析されます。
提案された DAQ のパフォーマンスは、さまざまなベンチマーク環境下で経験的に実証されています。
要約(オリジナル)
The goal of this paper is to propose a new Q-learning algorithm with a dummy adversarial player, which is called dummy adversarial Q-learning (DAQ), that can effectively regulate the overestimation bias in standard Q-learning. With the dummy player, the learning can be formulated as a two-player zero-sum game. The proposed DAQ unifies several Q-learning variations to control overestimation biases, such as maxmin Q-learning and minmax Q-learning (proposed in this paper) in a single framework. The proposed DAQ is a simple but effective way to suppress the overestimation bias thourgh dummy adversarial behaviors and can be easily applied to off-the-shelf reinforcement learning algorithms to improve the performances. A finite-time convergence of DAQ is analyzed from an integrated perspective by adapting an adversarial Q-learning. The performance of the suggested DAQ is empirically demonstrated under various benchmark environments.
arxiv情報
著者 | HyeAnn Lee,Donghwan Lee |
発行日 | 2024-02-26 07:20:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google