Learning Multi-Agent Intention-Aware Communication for Optimal Multi-Order Execution in Finance

要約

注文執行は定量的金融における基本的なタスクであり、特定の資産の多数の取引注文の取得または清算を完了することを目的としています。
モデルフリー強化学習 (RL) の最近の進歩により、注文実行の問題に対するデータ駆動型のソリューションが提供されます。
ただし、既存の作業では、常に個別の注文の実行が最適化されており、複数の注文が同時に実行されるように指定されているという慣行が見落とされており、その結果、準最適性と偏りが生じます。
この論文では、最初に、実際的な制約を考慮した複数注文実行のためのマルチエージェント RL (MARL) 手法を紹介します。
具体的には、当社はすべてのエージェントを特定の注文を取引する個別のオペレーターとして扱い、同時に相互に通信を続け、全体的な利益を最大化するために協力します。
それにもかかわらず、既存の MARL アルゴリズムには、部分的な観測情報のみを交換するエージェント間の通信が組み込まれていることが多く、複雑な金融市場では非効率的です。
コラボレーションを改善するために、エージェントが意図したアクションを相互に伝達し、それに応じて調整するための、学習可能なマルチラウンド通信プロトコルを提案します。
これは、元の学習目標と一致しており、さらに効率的であることが証明されている、新しい行動価値帰属方法を通じて最適化されています。
2 つの現実世界の市場からのデータに関する実験では、私たちの方法によって達成されるコラボレーションの有効性が大幅に向上し、優れたパフォーマンスが実証されました。

要約(オリジナル)

Order execution is a fundamental task in quantitative finance, aiming at finishing acquisition or liquidation for a number of trading orders of the specific assets. Recent advance in model-free reinforcement learning (RL) provides a data-driven solution to the order execution problem. However, the existing works always optimize execution for an individual order, overlooking the practice that multiple orders are specified to execute simultaneously, resulting in suboptimality and bias. In this paper, we first present a multi-agent RL (MARL) method for multi-order execution considering practical constraints. Specifically, we treat every agent as an individual operator to trade one specific order, while keeping communicating with each other and collaborating for maximizing the overall profits. Nevertheless, the existing MARL algorithms often incorporate communication among agents by exchanging only the information of their partial observations, which is inefficient in complicated financial market. To improve collaboration, we then propose a learnable multi-round communication protocol, for the agents communicating the intended actions with each other and refining accordingly. It is optimized through a novel action value attribution method which is provably consistent with the original learning objective yet more efficient. The experiments on the data from two real-world markets have illustrated superior performance with significantly better collaboration effectiveness achieved by our method.

arxiv情報

著者 Yuchen Fang,Zhenggang Tang,Kan Ren,Weiqing Liu,Li Zhao,Jiang Bian,Dongsheng Li,Weinan Zhang,Yong Yu,Tie-Yan Liu
発行日 2023-07-06 16:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク