要約
我々は、2RA Q-learningと呼ばれる新しいQ-learningの変形を提案し、既存のQ-learning手法のいくつかの弱点を原理的な方法で解決する。そのような弱点の一つは、制御することができず、しばしば性能低下をもたらす根本的な推定バイアスである。我々は、最大期待値項に対する分布的にロバストな推定器を提案し、これにより導入される推定バイアスのレベルを正確に制御することができる。この分布的にロバストな推定器は閉形式の解を持つため、提案アルゴリズムは反復あたりの計算コストがWatkinsのQ-learningに匹敵する。表形式の場合について、2RA Q-learningが最適な政策に収束することを示し、その漸近平均二乗誤差を解析する。最後に、様々な設定に対する数値実験を行い、我々の理論的知見を裏付け、2RA Q-learningがしばしば既存の手法よりも良い性能を示すことを示す。
要約(オリジナル)
We propose a new Q-learning variant, called 2RA Q-learning, that addresses some weaknesses of existing Q-learning methods in a principled manner. One such weakness is an underlying estimation bias which cannot be controlled and often results in poor performance. We propose a distributionally robust estimator for the maximum expected value term, which allows us to precisely control the level of estimation bias introduced. The distributionally robust estimator admits a closed-form solution such that the proposed algorithm has a computational cost per iteration comparable to Watkins’ Q-learning. For the tabular case, we show that 2RA Q-learning converges to the optimal policy and analyze its asymptotic mean-squared error. Lastly, we conduct numerical experiments for various settings, which corroborate our theoretical findings and indicate that 2RA Q-learning often performs better than existing methods.
arxiv情報
著者 | Peter Schmitt-Förster,Tobias Sutter |
発行日 | 2024-05-03 15:57:26+00:00 |
arxivサイト | arxiv_id(pdf) |