Robust Reinforcement Learning under Diffusion Models for Data with Jumps

要約

強化学習 (RL) は、さまざまな領域にわたる複雑な意思決定タスクを解決するのに効果的であることが証明されていますが、連続時間設定、特に状態ダイナミクスがジャンプ成分を含む確率微分方程式 (SDE) によって支配される場合には課題が残ります。
このペーパーでは、重大な確率的ノイズとジャンプを伴うシナリオでのロバスト性と収束性を強化する平均二乗双電力変動誤差 (MSBVE) アルゴリズムを導入することで、この課題に対処します。
まず、連続時間 RL で一般的に使用される平均二乗 TD 誤差 (MSTDE) アルゴリズムを再検討し、状態ダイナミクスのジャンプの処理におけるその限界を強調します。
提案された MSBVE アルゴリズムは、平均二乗二次変分誤差を最小限に抑え、ジャンプのある SDE によって特徴づけられる環境において MSTDE よりも向上したパフォーマンスを提供します。
シミュレーションと正式な証明は、MSBVE アルゴリズムが複雑な設定で値関数を確実に推定し、ジャンプ プロセスに直面した場合に MSTDE のパフォーマンスを上回ることを示しています。
これらの発見は、連続時間フレームワークにおける RL アルゴリズムの回復力と有効性を向上させるための代替エラー メトリクスの重要性を強調しています。

要約(オリジナル)

Reinforcement Learning (RL) has proven effective in solving complex decision-making tasks across various domains, but challenges remain in continuous-time settings, particularly when state dynamics are governed by stochastic differential equations (SDEs) with jump components. In this paper, we address this challenge by introducing the Mean-Square Bipower Variation Error (MSBVE) algorithm, which enhances robustness and convergence in scenarios involving significant stochastic noise and jumps. We first revisit the Mean-Square TD Error (MSTDE) algorithm, commonly used in continuous-time RL, and highlight its limitations in handling jumps in state dynamics. The proposed MSBVE algorithm minimizes the mean-square quadratic variation error, offering improved performance over MSTDE in environments characterized by SDEs with jumps. Simulations and formal proofs demonstrate that the MSBVE algorithm reliably estimates the value function in complex settings, surpassing MSTDE’s performance when faced with jump processes. These findings underscore the importance of alternative error metrics to improve the resilience and effectiveness of RL algorithms in continuous-time frameworks.

arxiv情報

著者 Chenyang Jiang,Donggyu Kim,Alejandra Quintos,Yazhen Wang
発行日 2024-11-18 16:17:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク