MacroHFT: Memory Augmented Context-aware Reinforcement Learning On High Frequency Trading

要約

近年、仮想通貨市場ではアルゴリズム取引を短時間で実行する高頻度取引(HFT)が主流を占めています。
従来の定量取引手法に加えて、強化学習 (RL) は、高次元の財務データを処理し、高度な逐次的意思決定問題を解決する優れた能力により、HFT にとってもう 1 つの魅力的なアプローチとなっています。\emph{例} 階層強化学習 (HRL)
) は、現在のトランザクションを実行するためにエージェント プールからサブエージェントを 1 つだけ選択するようにルーターをトレーニングすることにより、第 2 レベルの HFT で有望なパフォーマンスを示しました。
しかし、HFT 用の既存の RL 手法には依然としていくつかの欠陥があります。1) 標準的な RL ベースの取引エージェントは過剰適合の問題に悩まされており、財務状況に基づいて効果的なポリシー調整を行うことができません。
2) 市況の急速な変化により、個々のエージェントによる投資決定は通常一方的で非常に偏ったものとなり、極端な市場では重大な損失につながる可能性があります。
これらの問題に取り組むために、私たちは、HFT 上の新しいメモリ拡張コンテキスト認識強化学習法、\emph{別名: MacroHFT を提案します。これは 2 つのトレーニング フェーズで構成されます: 1) 最初に、分解された市場データを使用して複数のタイプのサブエージェントをトレーニングします。
さまざまな財務指標、特に市場の傾向とボラティリティに従って、各エージェントは市場の状況に応じて取引ポリシーを調整するための条件付きアダプターを所有しています。
2) 次に、これらのサブエージェントからの決定を混合し、意思決定能力を強化するための記憶メカニズムを備えた、急速な市場変動に対処するために一貫して収益性の高いメタポリシーを出力するハイパーエージェントを訓練します。
さまざまな暗号通貨市場での広範な実験により、MacroHFT が分単位の取引タスクで最先端のパフォーマンスを達成できることが実証されました。

要約(オリジナル)

High-frequency trading (HFT) that executes algorithmic trading in short time scales, has recently occupied the majority of cryptocurrency market. Besides traditional quantitative trading methods, reinforcement learning (RL) has become another appealing approach for HFT due to its terrific ability of handling high-dimensional financial data and solving sophisticated sequential decision-making problems, \emph{e.g.,} hierarchical reinforcement learning (HRL) has shown its promising performance on second-level HFT by training a router to select only one sub-agent from the agent pool to execute the current transaction. However, existing RL methods for HFT still have some defects: 1) standard RL-based trading agents suffer from the overfitting issue, preventing them from making effective policy adjustments based on financial context; 2) due to the rapid changes in market conditions, investment decisions made by an individual agent are usually one-sided and highly biased, which might lead to significant loss in extreme markets. To tackle these problems, we propose a novel Memory Augmented Context-aware Reinforcement learning method On HFT, \emph{a.k.a.} MacroHFT, which consists of two training phases: 1) we first train multiple types of sub-agents with the market data decomposed according to various financial indicators, specifically market trend and volatility, where each agent owns a conditional adapter to adjust its trading policy according to market conditions; 2) then we train a hyper-agent to mix the decisions from these sub-agents and output a consistently profitable meta-policy to handle rapid market fluctuations, equipped with a memory mechanism to enhance the capability of decision-making. Extensive experiments on various cryptocurrency markets demonstrate that MacroHFT can achieve state-of-the-art performance on minute-level trading tasks.

arxiv情報

著者 Chuqiao Zong,Chaojie Wang,Molei Qin,Lei Feng,Xinrun Wang,Bo An
発行日 2024-06-20 17:48:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-fin.TR パーマリンク