Temporal Difference Learning with Continuous Time and State in the Stochastic Setting

要約

連続時間政策評価の問題を考える。
これは、制御されていない連続時間の確率的ダイナミクスに関連する価値関数と報酬関数を観察を通じて学習することから構成されます。
消失タイム ステップを使用する、よく知られている TD(0) 法の 2 つの独自の変形を提案します。
1 つはモデルフリーで、もう 1 つはモデルベースです。
どちらの方法でも、理論的な収束率を証明し、その後数値シミュレーションを通じて検証します。
あるいは、これらの方法は、線形 PDE (偏微分方程式) または線形 BSDE (後方確率微分方程式) の解を近似するための新しい強化学習アプローチとして解釈できます。

要約(オリジナル)

We consider the problem of continuous-time policy evaluation. This consists in learning through observations the value function associated with an uncontrolled continuous-time stochastic dynamic and a reward function. We propose two original variants of the well-known TD(0) method using vanishing time steps. One is model-free and the other is model-based. For both methods, we prove theoretical convergence rates that we subsequently verify through numerical simulations. Alternatively, those methods can be interpreted as novel reinforcement learning approaches for approximating solutions of linear PDEs (partial differential equations) or linear BSDEs (backward stochastic differential equations).

arxiv情報

著者 Ziad Kobeissi,Francis Bach
発行日 2023-06-07 12:18:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.AP, math.OC パーマリンク