Asynchronous Deep Double Duelling Q-Learning for Trading-Signal Execution in Limit Order Book Markets

要約

当社は深層強化学習 (RL) を採用して、高頻度の取引シグナルを個別の指値注文を行う取引戦略にうまく変換できるようにエージェントをトレーニングします。
ABIDES 指値注文帳シミュレーターに基づいて、強化学習 OpenAI ジム環境を構築し、それを利用して、過去の注文帳メッセージに基づいてナスダック株式の現実的な取引環境をシミュレートします。
この環境で取引収益を最大化することを学習する取引エージェントをトレーニングするために、APEX (非同期優先エクスペリエンス リプレイ) アーキテクチャを備えた Deep Dueling Double Q-learning を使用します。
エージェントは、現在の指値注文帳の状態、その最近の履歴、および短期的な方向性の予測を観察します。
具体的な予測アルゴリズムから独立して適応取引の RL のパフォーマンスを調査するために、さまざまなレベルのノイズで将来予測リターンを摂動させることによって得られる合成アルファ信号を利用したアプローチのパフォーマンスを調査します。
ここで、RL エージェントは、同じシグナルにアクセスできるヒューリスティックなベンチマーク取引戦略よりも優れた在庫管理と発注のための効果的な取引戦略を学習していることがわかります。

要約(オリジナル)

We employ deep reinforcement learning (RL) to train an agent to successfully translate a high-frequency trading signal into a trading strategy that places individual limit orders. Based on the ABIDES limit order book simulator, we build a reinforcement learning OpenAI gym environment and utilise it to simulate a realistic trading environment for NASDAQ equities based on historic order book messages. To train a trading agent that learns to maximise its trading return in this environment, we use Deep Duelling Double Q-learning with the APEX (asynchronous prioritised experience replay) architecture. The agent observes the current limit order book state, its recent history, and a short-term directional forecast. To investigate the performance of RL for adaptive trading independently from a concrete forecasting algorithm, we study the performance of our approach utilising synthetic alpha signals obtained by perturbing forward-looking returns with varying levels of noise. Here, we find that the RL agent learns an effective trading strategy for inventory management and order placing that outperforms a heuristic benchmark trading strategy having access to the same signal.

arxiv情報

著者 Peer Nagy,Jan-Peter Calliess,Stefan Zohren
発行日 2023-09-25 15:57:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-fin.TR パーマリンク