Utilizing Maximum Mean Discrepancy Barycenter for Propagating the Uncertainty of Value Functions in Reinforcement Learning

要約

強化学習(RL)において、価値関数の不確実性を考慮することは探索を促進する。我々の研究は、時間差(Temporal Difference: TD)更新中の不確実性伝播のためのWasserstein Q-Learning(WQL)を改善するために、最大平均不一致Q-Learning(MMD-QL)を導入する。MMD-QLはこの目的のためにMMDバリセンターを用いるが、これはMMDがWasserstein距離よりも確率測度間の近さをより厳密に推定するためである。まず、MMD-QLが平均損失尺度の下で、MDPにおいてProbably Approximately Correct (PAC-MDP)であることを立証する。累積報酬に関しては、表形式の環境での実験により、MMD-QLがWQLや他のアルゴリズムを凌駕することを示す。次に、MMD-QLにディープネットワークを組み込み、MMD Q-Network(MMD-QN)を作成する。合理的な仮定を置き、関数近似を用いてMMD-QNの収束率を分析する。難易度の高いAtariゲームを用いた実証実験の結果、MMD-QNはベンチマークのディープRLアルゴリズムと比較して良好な性能を示し、大規模な状態アクション空間を扱う際の有効性が強調された。

要約(オリジナル)

Accounting for the uncertainty of value functions boosts exploration in Reinforcement Learning (RL). Our work introduces Maximum Mean Discrepancy Q-Learning (MMD-QL) to improve Wasserstein Q-Learning (WQL) for uncertainty propagation during Temporal Difference (TD) updates. MMD-QL uses the MMD barycenter for this purpose, as MMD provides a tighter estimate of closeness between probability measures than the Wasserstein distance. Firstly, we establish that MMD-QL is Probably Approximately Correct in MDP (PAC-MDP) under the average loss metric. Concerning the accumulated rewards, experiments on tabular environments show that MMD-QL outperforms WQL and other algorithms. Secondly, we incorporate deep networks into MMD-QL to create MMD Q-Network (MMD-QN). Making reasonable assumptions, we analyze the convergence rates of MMD-QN using function approximation. Empirical results on challenging Atari games demonstrate that MMD-QN performs well compared to benchmark deep RL algorithms, highlighting its effectiveness in handling large state-action spaces.

arxiv情報

著者 Srinjoy Roy,Swagatam Das
発行日 2024-04-03 14:32:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク