A Method to Improve the Performance of Reinforcement Learning Based on the Y Operator for a Class of Stochastic Differential Equation-Based Child-Mother Systems

要約

この論文では、確率微分方程式(SDE)によって支配されるシステムに対するActor-Critic(AC)ベースの強化学習における制御性能を向上させる、Yオペレータと呼ばれる新しいオペレータを紹介します。
Y オペレーターは、子母システムのクラスの確率性を Critic ネットワークの損失関数に巧みに統合し、RL アルゴリズムの制御パフォーマンスに大幅な進歩をもたらします。さらに、Y オペレーターは、状態の偏微分方程式を解くという課題をエレガントに再定式化します。
-値関数を、システムの SDE 内のドリフト関数と拡散関数の並列問題に変換します。厳密な数学的証明により、演算子の妥当性が確認されます。この変換により、Y 演算子ベースの強化学習 (YORL) フレームワークが両方のモデルの最適な制御問題に効率的に取り組むことができます。
YORL の優位性は、収束後に既存の方法よりも向上したパフォーマンスを示す線形および非線形の数値例を通じて実証されます。

要約(オリジナル)

This paper introduces a novel operator, termed the Y operator, to elevate control performance in Actor-Critic(AC) based reinforcement learning for systems governed by stochastic differential equations(SDEs). The Y operator ingeniously integrates the stochasticity of a class of child-mother system into the Critic network’s loss function, yielding substantial advancements in the control performance of RL algorithms.Additionally, the Y operator elegantly reformulates the challenge of solving partial differential equations for the state-value function into a parallel problem for the drift and diffusion functions within the system’s SDEs.A rigorous mathematical proof confirms the operator’s validity.This transformation enables the Y Operator-based Reinforcement Learning(YORL) framework to efficiently tackle optimal control problems in both model-based and data-driven systems.The superiority of YORL is demonstrated through linear and nonlinear numerical examples showing its enhanced performance over existing methods post convergence.

arxiv情報

著者 Cheng Yin,Yi Chen
発行日 2024-01-01 06:03:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, math.OC パーマリンク