Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement Learning

要約

タイトル:Deep Reinforcement Learningの条件付き可視性動的リスクメジャー

要約:
– エージェントが時間的一貫性のある動的スペクトルリスクメジャーを最適化するリスク感知型強化学習(RL)問題を解決するための新しいフレームワークを提案
– 条件的可視性の概念に基づいて、方法論は推定手順でペナライザーとして使用される(厳密に一貫した)スコアリング関数を構築
– 3つの貢献:(i)効率的なアプローチを提案して、深層ニューラルネットワークを使用して一連の動的スペクトルリスクメジャーを推定する(ii)これらの動的スペクトルリスクメジャーは深層ニューラルネットワークを使用して任意の精度で近似できることを証明(iii)フルエピソードを使用し、追加のネストされた遷移を必要としないリスク感知型アクターコメディアンアルゴリズムを開発
– リスク感知型強化学習アルゴリズムを、ネストシミュレーションアプローチと比較し、2つの設定(統計的裁定およびシミュレーションおよび実際のデータによるポートフォリオ配分)でその性能を示す。

要約(オリジナル)

We propose a novel framework to solve risk-sensitive reinforcement learning (RL) problems where the agent optimises time-consistent dynamic spectral risk measures. Based on the notion of conditional elicitability, our methodology constructs (strictly consistent) scoring functions that are used as penalizers in the estimation procedure. Our contribution is threefold: we (i) devise an efficient approach to estimate a class of dynamic spectral risk measures with deep neural networks, (ii) prove that these dynamic spectral risk measures may be approximated to any arbitrary accuracy using deep neural networks, and (iii) develop a risk-sensitive actor-critic algorithm that uses full episodes and does not require any additional nested transitions. We compare our conceptually improved reinforcement learning algorithm with the nested simulation approach and illustrate its performance in two settings: statistical arbitrage and portfolio allocation on both simulated and real data.

arxiv情報

著者 Anthony Coache,Sebastian Jaimungal,Álvaro Cartea
発行日 2023-05-01 15:16:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, q-fin.CP, q-fin.PM, q-fin.RM, q-fin.TR パーマリンク