LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning

要約

現在、強化学習(RL)に関する研究は、オンライン RL とオフライン RL の 2 つのカテゴリに大別されます。
オンラインとオフラインの RL の両方において、ベルマン誤差に関する研究の主な焦点は、分散特性などのベルマン誤差に固有の構造特性を調査することよりも、最適化手法とパフォーマンスの向上にあります。
この研究では、オンライン設定とオフライン設定の両方でのベルマン近似誤差の分布を分析します。
オンライン環境ではベルマン誤差はロジスティック分布に従いますが、オフライン環境ではベルマン誤差は制約付きロジスティック分布に従います。制約付き分布はオフライン データ セット内の以前のポリシーに依存します。
この発見に基づいて、ベルマン誤差が正規分布に従うという仮定に基づく MSELoss を改良し、ロジスティック最尤関数を利用して代替損失関数として $\rm LLoss$ を構築しました。
さらに、オフライン データセット内の報酬は特定の分布に従う必要があり、これによりオフラインの目標の達成が促進されることがわかりました。
数値実験では、オンライン環境とオフライン環境の両方で、Soft-Actor-Critic の 2 つのバリアントの損失関数に対して制御変数の補正を実行しました。
結果は、オンライン設定とオフライン設定に関する仮説を裏付け、LLoss の分散が MSELoss よりも小さいこともわかりました。
私たちの研究は、ベルマン誤差の分布に基づいたさらなる調査のための貴重な洞察を提供します。

要約(オリジナル)

Currently, research on Reinforcement learning (RL) can be broadly classified into two categories: online RL and offline RL. Both in online and offline RL, the primary focus of research on the Bellman error lies in the optimization techniques and performance improvement, rather than exploring the inherent structural properties of the Bellman error, such as distribution characteristics. In this study, we analyze the distribution of the Bellman approximation error in both online and offline settings. We find that in the online environment, the Bellman error follows a Logistic distribution, while in the offline environment, the Bellman error follows a constrained Logistic distribution, where the constrained distribution is dependent on the prior policy in the offline data set. Based on this finding, we have improved the MSELoss which is based on the assumption that the Bellman errors follow a normal distribution, and we utilized the Logistic maximum likelihood function to construct $\rm LLoss$ as an alternative loss function. In addition, we observed that the rewards in the offline data set should follow a specific distribution, which would facilitate the achievement of offline objectives. In our numerical experiments, we performed controlled variable corrections on the loss functions of two variants of Soft-Actor-Critic in both online and offline environments. The results confirmed our hypothesis regarding the online and offline settings, we also found that the variance of LLoss is smaller than MSELoss. Our research provides valuable insights for further investigations based on the distribution of Bellman errors.

arxiv情報

著者 Outongyi Lv,Bingxin Zhou,Yu Guang Wang
発行日 2023-07-05 15:00:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク