Reinforcement Learning for Jump-Diffusions, with Financial Applications

要約

私たちは、システムダイナミクスがジャンプ拡散プロセスによって支配される確率的制御のための連続時間強化学習 (RL) を研究します。
確率論的ポリシーを使用してエントロピー正則化された探索制御問題を定式化し、RL に不可欠な探索と活用のバランスを捕捉します。
Wang らが最初に研究した純粋な拡散の場合とは異なります。
(2020) によると、ジャンプ拡散下での探索的ダイナミクスの導出には、ジャンプ部分の慎重な定式化が必要です。
理論分析を通じて、Jia and Zhou (2022a, 2023) と同じ政策評価と $q$ 学習アルゴリズムを簡単に使用できることがわかりました。これは、もともと制御された拡散のために開発されたもので、基礎となるデータが得られたかどうかをアプリオリにチェックする必要はありません。
純粋な拡散またはジャンプ拡散から。
ただし、ジャンプの存在は一般に俳優と批評家のパラメーター化に影響を与えるはずであることを示します。
応用例として、株価がジャンプ拡散としてモデル化された平均分散ポートフォリオ選択問題を調査し、RL アルゴリズムとパラメータ化の両方がジャンプに関して不変であることを示します。
最後に、一般理論をオプションのヘッジに適用することに関する詳細な研究を紹介します。

要約(オリジナル)

We study continuous-time reinforcement learning (RL) for stochastic control in which system dynamics are governed by jump-diffusion processes. We formulate an entropy-regularized exploratory control problem with stochastic policies to capture the exploration–exploitation balance essential for RL. Unlike the pure diffusion case initially studied by Wang et al. (2020), the derivation of the exploratory dynamics under jump-diffusions calls for a careful formulation of the jump part. Through a theoretical analysis, we find that one can simply use the same policy evaluation and $q$-learning algorithms in Jia and Zhou (2022a, 2023), originally developed for controlled diffusions, without needing to check a priori whether the underlying data come from a pure diffusion or a jump-diffusion. However, we show that the presence of jumps ought to affect parameterizations of actors and critics in general. We investigate as an application the mean–variance portfolio selection problem with stock price modelled as a jump-diffusion, and show that both RL algorithms and parameterizations are invariant with respect to jumps. Finally, we present a detailed study on applying the general theory to option hedging.

arxiv情報

著者 Xuefeng Gao,Lingfei Li,Xun Yu Zhou
発行日 2024-08-08 13:32:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, q-fin.MF パーマリンク