要約
分布強化学習~(RL)の経験的な成功は、分布表現と分布発散の選択に大きく依存する。本論文では、戻り値分布から無制限統計量を学習し、シンクホーン発散を活用して現在と目標のベルマン戻り値分布の差を最小化する、㊙シンクホーン分布強化学習~(SinkhornDRL)}を提案する。理論的には、SinkhornDRLの収縮特性を証明し、Wasserstein距離と最大平均不一致~(MMD)の間のSinkhornダイバージェンスの補間特性と一致する。また、SinkhornDRLの優位性を説明するために、Sinkhorn発散と正則化されたMMDと正則化されたMoment Matchingの等価性を証明します。経験的に、SinkhornDRLはAtariゲームスイートにおいて、既存のアルゴリズムよりも常に優れているか、同等であることを示す。
要約(オリジナル)
The empirical success of distributional reinforcement learning~(RL) highly depends on the distribution representation and the choice of distribution divergence. In this paper, we propose \textit{Sinkhorn distributional RL~(SinkhornDRL)} that learns unrestricted statistics from return distributions and leverages Sinkhorn divergence to minimize the difference between current and target Bellman return distributions. Theoretically, we prove the contraction properties of SinkhornDRL, consistent with the interpolation nature of Sinkhorn divergence between Wasserstein distance and Maximum Mean Discrepancy~(MMD). We also establish the equivalence between Sinkhorn divergence and a regularized MMD with a regularized Moment Matching behavior, contributing to explaining the superiority of SinkhornDRL. Empirically, we show that SinkhornDRL is consistently better or comparable to existing algorithms on the Atari games suite.
arxiv情報
著者 | Ke Sun,Yingnan Zhao,Wulong Liu,Bei Jiang,Linglong Kong |
発行日 | 2024-02-02 17:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |