要約
マーコウィッツ モデルのような最新のポートフォリオ理論手法によって定量的に計算された金融ポートフォリオ管理の投資ポリシーは、ボラティリティの高い市場のデータによって裏付けられていない一連の仮定に依存しています。
したがって、定量的研究者は、この問題に取り組むための代替モデルを探しています。
具体的には、ポートフォリオ管理は、最近、深層強化学習 (DRL) アプローチによってうまく対処されている問題です。
特に、DRL アルゴリズムは、シミュレーターで任意の財務状態を与えられたエージェントによって実行されるすべてのアクションの期待される報酬の分布を推定することにより、エージェントをトレーニングします。
ただし、これらの方法は、そのような分布を表現するのにディープ ニューラル ネットワーク モデルに依存しているため、ユニバーサル近似モデルではありますが、解釈できないパラメーターのセットによって与えられるため、その動作を説明できません。
重要なことに、金融投資家のポリシーでは予測が解釈可能であることが求められるため、DRL エージェントは特定のポリシーに従ったり、その行動を説明したりするのには適していません。
この研究では、ポートフォリオ管理のための新しい説明可能な深層強化学習 (XDRL) アプローチを開発し、近接ポリシー最適化 (PPO) を特徴重要度のモデルに依存しない説明可能な手法、SHAP、および LIME と統合して、予測時間の透明性を高めました。
私たちの手法を実行することで、エージェントの行動を予測時間内に解釈して、投資ポリシーの要件に従っているかどうかを評価したり、エージェントの提案に従うリスクを評価したりできます。
私たちの知る限り、私たちが提案するアプローチは、DRL エージェントの最初の説明可能な事後ポートフォリオ管理財務ポリシーです。
私たちは、投資決定に影響を与える主要な特徴を首尾よく特定することによって方法論を実証的に説明し、予測時間内にエージェントのアクションを説明できることを実証します。
要約(オリジナル)
Financial portfolio management investment policies computed quantitatively by modern portfolio theory techniques like the Markowitz model rely on a set on assumptions that are not supported by data in high volatility markets. Hence, quantitative researchers are looking for alternative models to tackle this problem. Concretely, portfolio management is a problem that has been successfully addressed recently by Deep Reinforcement Learning (DRL) approaches. In particular, DRL algorithms train an agent by estimating the distribution of the expected reward of every action performed by an agent given any financial state in a simulator. However, these methods rely on Deep Neural Networks model to represent such a distribution, that although they are universal approximator models, they cannot explain its behaviour, given by a set of parameters that are not interpretable. Critically, financial investors policies require predictions to be interpretable, so DRL agents are not suited to follow a particular policy or explain their actions. In this work, we developed a novel Explainable Deep Reinforcement Learning (XDRL) approach for portfolio management, integrating the Proximal Policy Optimization (PPO) with the model agnostic explainable techniques of feature importance, SHAP and LIME to enhance transparency in prediction time. By executing our methodology, we can interpret in prediction time the actions of the agent to assess whether they follow the requisites of an investment policy or to assess the risk of following the agent suggestions. To the best of our knowledge, our proposed approach is the first explainable post hoc portfolio management financial policy of a DRL agent. We empirically illustrate our methodology by successfully identifying key features influencing investment decisions, which demonstrate the ability to explain the agent actions in prediction time.
arxiv情報
著者 | Alejandra de la Rica Escudero,Eduardo C. Garrido-Merchan,Maria Coronado-Vaca |
発行日 | 2024-07-19 17:40:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google