Catastrophic-risk-aware reinforcement learning with extreme-value-theory-based policy gradients

要約

この文書は、逐次的な意思決定プロセスの文脈で、壊滅的なリスク (頻度は非常に低いが重大度は非常に高いリスク) を軽減するという問題に取り組みます。
この問題は、累積コスト (負の報酬) の分布の末端での観測が不足しているため、特に困難です。
POTPG と呼ばれるポリシー勾配アルゴリズムが開発されました。
これは、極値理論から導出されたテール リスクの近似に基づいています。
数値実験では、経験的分布に基づいて、一般的なベンチマークよりも私たちの方法が優れたパフォーマンスを示していることがわかります。
金融リスク管理、より正確には金融オプションの動的なヘッジへの応用が示されています。

要約(オリジナル)

This paper tackles the problem of mitigating catastrophic risk (which is risk with very low frequency but very high severity) in the context of a sequential decision making process. This problem is particularly challenging due to the scarcity of observations in the far tail of the distribution of cumulative costs (negative rewards). A policy gradient algorithm is developed, that we call POTPG. It is based on approximations of the tail risk derived from extreme value theory. Numerical experiments highlight the out-performance of our method over common benchmarks, relying on the empirical distribution. An application to financial risk management, more precisely to the dynamic hedging of a financial option, is presented.

arxiv情報

著者 Parisa Davar,Frédéric Godin,Jose Garrido
発行日 2024-06-28 14:23:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-fin.RM パーマリンク