LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning

要約

最新の強化学習 (RL) は、オンラインとオフラインのバリエーションに分類できます。
オンラインとオフラインの両方の RL の極めて重要な側面として、ベルマン方程式に関する現在の研究は、分布特性などのベルマン誤差に固有の構造的特性を調査するというよりは、主に最適化手法とパフォーマンスの向上を中心に展開しています。
この研究では、ベルマン方程式の反復探索を通じて、オンラインとオフラインの両方の設定におけるベルマン近似誤差の分布を調査します。
オンライン RL とオフライン RL の両方で、ベルマン誤差がロジスティック分布に準拠していることが観察されました。
この発見に基づいて、この研究では、ベルマン誤差が正規分布に従うと仮定して、一般的に使用される MSE 損失の代替としてロジスティック最尤関数 (LLoss) を採用しました。
私たちは、オンラインおよびオフラインの多様な環境にわたる広範な数値実験を通じて仮説を検証しました。
特に、さまざまなベースライン アルゴリズムにわたって損失関数に補正を適用し、ロジスティック補正を使用した損失関数が MSE の対応する損失関数よりも大幅に優れていることを一貫して観察しました。
さらに、ロジスティック分布の信頼性を確認するためにコルモゴロフ・スミルノフ検定を実施しました。
この研究の理論的および経験的洞察は、ベルマン誤差の分布を中心とした将来の調査と強化のための貴重な基礎を提供します。

要約(オリジナル)

Modern reinforcement learning (RL) can be categorized into online and offline variants. As a pivotal aspect of both online and offline RL, current research on the Bellman equation revolves primarily around optimization techniques and performance enhancement rather than exploring the inherent structural properties of the Bellman error, such as its distribution characteristics. This study investigates the distribution of the Bellman approximation error in both online and offline settings through iterative exploration of the Bellman equation. We observed that both in online RL and offline RL, the Bellman error conforms to a Logistic distribution. Building upon this discovery, this study employed the Logistics maximum likelihood function (LLoss) as an alternative to the commonly used MSE Loss, assuming that Bellman errors adhere to a normal distribution. We validated our hypotheses through extensive numerical experiments across diverse online and offline environments. In particular, we applied corrections to the loss function across various baseline algorithms and consistently observed that the loss function with Logistic corrections outperformed the MSE counterpart significantly. Additionally, we conducted Kolmogorov-Smirnov tests to confirm the reliability of the Logistic distribution. This study’s theoretical and empirical insights provide valuable groundwork for future investigations and enhancements centered on the distribution of Bellman errors.

arxiv情報

著者 Outongyi Lv,Bingxin Zhou
発行日 2023-09-26 14:34:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク