要約
私たちは、店頭市場で相互作用する流動性プロバイダーと流動性テイカーエージェントの間のゲームを研究します。その典型的な例は外国為替です。
共有ポリシー学習と組み合わせた報酬関数のパラメーター化されたファミリーの適切な設計が、この問題に対する効率的な解決策をどのように構成するかを示します。
深層強化学習主導のエージェントは、相互に対戦することで、損益、最適な実行、市場シェアを含む幅広い目標に関連した緊急の行動を学習します。
特に、流動性プロバイダーはヘッジとスキューのバランスを自然に学習することがわかりました。スキューとは、在庫に応じて購入価格と販売価格を非対称に設定することを指します。
さらに、ゲームの平衡に制約を課す場合に優れたパフォーマンスを発揮する新しい RL ベースのキャリブレーション アルゴリズムを導入します。
理論面では、一般化順序ポテンシャル ゲームと密接に関連する推移性の仮定の下で、マルチエージェント ポリシー勾配アルゴリズムの収束率を示すことができます。
要約(オリジナル)
We study a game between liquidity provider and liquidity taker agents interacting in an over-the-counter market, for which the typical example is foreign exchange. We show how a suitable design of parameterized families of reward functions coupled with shared policy learning constitutes an efficient solution to this problem. By playing against each other, our deep-reinforcement-learning-driven agents learn emergent behaviors relative to a wide spectrum of objectives encompassing profit-and-loss, optimal execution and market share. In particular, we find that liquidity providers naturally learn to balance hedging and skewing, where skewing refers to setting their buy and sell prices asymmetrically as a function of their inventory. We further introduce a novel RL-based calibration algorithm which we found performed well at imposing constraints on the game equilibrium. On the theoretical side, we are able to show convergence rates for our multi-agent policy gradient algorithm under a transitivity assumption, closely related to generalized ordinal potential games.
arxiv情報
著者 | Nelson Vadori,Leo Ardon,Sumitra Ganesh,Thomas Spooner,Selim Amrouni,Jared Vann,Mengda Xu,Zeyu Zheng,Tucker Balch,Manuela Veloso |
発行日 | 2023-08-01 15:22:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google