Reinforcement Learning with Maskable Stock Representation for Portfolio Management in Customizable Stock Pools

要約

ポートフォリオ管理 (PM) は金融取引の基本的なタスクであり、長期的な利益を追求するためにさまざまな株式への資本の最適な定期的再配分を模索します。
強化学習 (RL) は最近、金融市場との対話を通じて PM の収益性の高いエージェントをトレーニングできる可能性を示しました。
しかし、既存の研究は主に固定株式プールに焦点を当てており、これは投資家の実際の需要と一致しません。
具体的には、さまざまな投資家のターゲット株式プールは、市場状態の相違により大幅に異なり、個人投資家は取引したい銘柄を一時的に調整することができ(例:人気銘柄を 1 つ追加する)、カスタマイズ可能な株式プール(CSP)につながります。
既存の RL 手法では、ストック プールがわずかに変更された場合でも RL エージェントを再トレーニングする必要があり、これが高い計算コストと不安定なパフォーマンスにつながります。
この課題に取り組むために、グローバル株式プール (GSP) でのワンショット トレーニングを通じて CSP との PM を処理するための Maskable stOck REpresentation を備えた rEinforcement 学習フレームワークである EarnMore を提案します。
具体的には、まずターゲットプール外の株式の表現をマスクアウトするメカニズムを導入します。
2 番目に、自己監視型のマスキングと再構成のプロセスを通じて、意味のあるストック表現を学習します。
第三に、再加重メカニズムは、ポートフォリオが有利な株式に集中し、ターゲットプール外の株式を無視するように設計されています。
米国株式市場の 8 つのサブセット株式プールでの広範な実験を通じて、EarnMore が 6 つの一般的な財務指標に関して 14 の最先端のベースラインを大幅に上回り、利益が 40% 以上向上していることを実証しました。

要約(オリジナル)

Portfolio management (PM) is a fundamental financial trading task, which explores the optimal periodical reallocation of capitals into different stocks to pursue long-term profits. Reinforcement learning (RL) has recently shown its potential to train profitable agents for PM through interacting with financial markets. However, existing work mostly focuses on fixed stock pools, which is inconsistent with investors’ practical demand. Specifically, the target stock pool of different investors varies dramatically due to their discrepancy on market states and individual investors may temporally adjust stocks they desire to trade (e.g., adding one popular stocks), which lead to customizable stock pools (CSPs). Existing RL methods require to retrain RL agents even with a tiny change of the stock pool, which leads to high computational cost and unstable performance. To tackle this challenge, we propose EarnMore, a rEinforcement leARNing framework with Maskable stOck REpresentation to handle PM with CSPs through one-shot training in a global stock pool (GSP). Specifically, we first introduce a mechanism to mask out the representation of the stocks outside the target pool. Second, we learn meaningful stock representations through a self-supervised masking and reconstruction process. Third, a re-weighting mechanism is designed to make the portfolio concentrate on favorable stocks and neglect the stocks outside the target pool. Through extensive experiments on 8 subset stock pools of the US stock market, we demonstrate that EarnMore significantly outperforms 14 state-of-the-art baselines in terms of 6 popular financial metrics with over 40% improvement on profit.

arxiv情報

著者 Wentao Zhang,Yilei Zhao,Shuo Sun,Jie Ying,Yonggang Xie,Zitao Song,Xinrun Wang,Bo An
発行日 2023-11-21 17:11:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG, q-fin.PM パーマリンク