要約
強化学習(RL)において、価値関数の不確実性を考慮することは探索を促進する。我々の研究は、時間差(Temporal Difference: TD)更新中の不確実性伝播のためのWasserstein Q-Learning(WQL)を改善するために、最大平均不一致Q-Learning(MMD-QL)を導入する。MMD-QLはこの目的のためにMMDバリセンターを用いるが、これはMMDがWasserstein距離よりも確率測度間の近さをより厳密に推定するためである。まず、MMD-QLが平均損失尺度の下で、MDPにおいてProbably Approximately Correct (PAC-MDP)であることを立証する。累積報酬に関しては、表形式の環境での実験により、MMD-QLがWQLや他のアルゴリズムを凌駕することを示す。次に、MMD-QLにディープネットワークを組み込み、MMD Q-Network(MMD-QN)を作成する。合理的な仮定を置き、関数近似を用いてMMD-QNの収束率を分析する。難易度の高いAtariゲームを用いた実証実験の結果、MMD-QNはベンチマークのディープRLアルゴリズムと比較して良好な性能を示し、大規模な状態アクション空間を扱う際の有効性が強調された。
要約(オリジナル)
Accounting for the uncertainty of value functions boosts exploration in Reinforcement Learning (RL). Our work introduces Maximum Mean Discrepancy Q-Learning (MMD-QL) to improve Wasserstein Q-Learning (WQL) for uncertainty propagation during Temporal Difference (TD) updates. MMD-QL uses the MMD barycenter for this purpose, as MMD provides a tighter estimate of closeness between probability measures than the Wasserstein distance. Firstly, we establish that MMD-QL is Probably Approximately Correct in MDP (PAC-MDP) under the average loss metric. Concerning the accumulated rewards, experiments on tabular environments show that MMD-QL outperforms WQL and other algorithms. Secondly, we incorporate deep networks into MMD-QL to create MMD Q-Network (MMD-QN). Making reasonable assumptions, we analyze the convergence rates of MMD-QN using function approximation. Empirical results on challenging Atari games demonstrate that MMD-QN performs well compared to benchmark deep RL algorithms, highlighting its effectiveness in handling large state-action spaces.
arxiv情報
| 著者 | Srinjoy Roy,Swagatam Das |
| 発行日 | 2024-04-03 14:32:17+00:00 |
| arxivサイト | arxiv_id(pdf) |