LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning

要約

現代の強化学習(RL)は、オンライン型とオフライン型に分類することができる。オンラインRLとオフラインRLの両方において極めて重要な側面であるベルマン方程式に関する現在の研究は、ベルマン誤差の分布特性などのベルマン誤差固有の構造的特性を探求するよりも、最適化技術や性能向上を中心に展開されている。本研究では、Bellman方程式の反復探索を通じて、オンラインとオフラインの両方の設定におけるBellman近似誤差の分布を調査する。その結果、オンラインRLにおいてもオフラインRLにおいても、Bellman誤差はLogistic分布に従うことがわかった。この発見を基に、本研究ではBellman誤差が正規分布に従うと仮定し、一般的に使用されるMSE Lossの代替としてLogistics最尤関数(LLoss)を採用した。様々なオンライン・オフライン環境における広範な数値実験を通じて、我々の仮説を検証した。特に、様々なベースラインアルゴリズムに損失関数への補正を適用し、一貫してロジスティック補正を適用した損失関数がMSEロス関数を大幅に上回ることを確認した。さらに、コルモゴロフ・スミルノフ検定を行って、ロジスティック分布の信頼性を確認した。本研究の理論的および経験的な洞察は、Bellman誤差の分布を中心とした将来の調査および拡張のための貴重な基礎となる。

要約(オリジナル)

Modern reinforcement learning (RL) can be categorized into online and offline variants. As a pivotal aspect of both online and offline RL, current research on the Bellman equation revolves primarily around optimization techniques and performance enhancement rather than exploring the inherent structural properties of the Bellman error, such as its distribution characteristics. This study investigates the distribution of the Bellman approximation error in both online and offline settings through iterative exploration of the Bellman equation. We observed that both in online RL and offline RL, the Bellman error conforms to a Logistic distribution. Building upon this discovery, this study employed the Logistics maximum likelihood function (LLoss) as an alternative to the commonly used MSE Loss, assuming that Bellman errors adhere to a normal distribution. We validated our hypotheses through extensive numerical experiments across diverse online and offline environments. In particular, we applied corrections to the loss function across various baseline algorithms and consistently observed that the loss function with Logistic corrections outperformed the MSE counterpart significantly. Additionally, we conducted Kolmogorov-Smirnov tests to confirm the reliability of the Logistic distribution. This study’s theoretical and empirical insights provide valuable groundwork for future investigations and enhancements centered on the distribution of Bellman errors.

arxiv情報

著者 Outongyi Lv,Bingxin Zhou
発行日 2023-11-03 15:55:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク