Risk-sensitive Reinforcement Learning Based on Convex Scoring Functions

要約

凸スコアリング機能を特徴とする、広範なクラスのリスク目標の下で強化学習(RL)フレームワークを提案します。
このクラスは、分散、予想される不足、リスクのエントロピーバリュー、平均リスクのユーティリティなど、多くの一般的なリスク測定値をカバーしています。
時間継承の問題を解決するために、拡張状態空間と補助変数を検討し、2つの状態の最適化問題として問題を再astします。
カスタマイズされたアクターcriticアルゴリズムを提案し、いくつかの理論的近似保証を確立します。
重要な理論的貢献は、私たちの結果がマルコフの決定プロセスを継続的にする必要がないことです。
さらに、特定の条件下で収束する交互の最小化アルゴリズムに触発された補助変数サンプリング方法を提案します。
シミュレーション実験でのアプローチを検証し、統計的arbitrage取引における財務アプリケーションを使用して、アルゴリズムの有効性を実証します。

要約(オリジナル)

We propose a reinforcement learning (RL) framework under a broad class of risk objectives, characterized by convex scoring functions. This class covers many common risk measures, such as variance, Expected Shortfall, entropic Value-at-Risk, and mean-risk utility. To resolve the time-inconsistency issue, we consider an augmented state space and an auxiliary variable and recast the problem as a two-state optimization problem. We propose a customized Actor-Critic algorithm and establish some theoretical approximation guarantees. A key theoretical contribution is that our results do not require the Markov decision process to be continuous. Additionally, we propose an auxiliary variable sampling method inspired by the alternating minimization algorithm, which is convergent under certain conditions. We validate our approach in simulation experiments with a financial application in statistical arbitrage trading, demonstrating the effectiveness of the algorithm.

arxiv情報

著者 Shanyu Han,Yang Liu,Xiang Yu
発行日 2025-05-07 16:31:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-fin.MF, q-fin.RM パーマリンク