要約
強化学習 (RL) に基づくインテリジェントな取引エージェントが普及するにつれて、RL エージェントが法律、規制、および人間の行動の期待に確実に従うことがより重要になります。
ヘリコプターの墜落や取引口座の破産などの明白な大惨事の回避に関する文献は数多くありますが、例はあってもプログラム可能な定義がない、微妙な非規範的な行動の回避に関する文献はほとんどありません。
このような行為は、物理的または金銭的制約ではなく、法的または規制上の制約に違反する可能性があります。
この記事では、インテリジェントな株式取引エージェントが利益を最大化する一方で、参加している市場を誤ってなりすますことを学習する可能性があるという一連の実験について考察します。
まず、手動でコード化されたスプーフィング エージェントをマルチエージェント市場シミュレーションに注入し、スプーフィング アクティビティのシーケンスを認識する方法を学習します。
次に、手動でコーディングされたスプーフィング トレーダーを、利益を最大化する単純な RL エージェントに置き換えて、最適な戦略としてスプーフィングを独自に発見することを観察します。
最後に、レコグナイザーを規範的なガイドとして組み込んで、エージェントが認識する報酬を形成し、エージェントが選択したアクションを変更する方法を紹介します。
エージェントは、さらに高い利益をもたらす可能性のあるなりすまし行為を回避しながら、利益を確保し続けます。
実証結果を示した後、いくつかの推奨事項で締めくくります。
この方法は、認識機能を学習できる不要な動作を削減するために一般化する必要があります。
要約(オリジナル)
As intelligent trading agents based on reinforcement learning (RL) gain prevalence, it becomes more important to ensure that RL agents obey laws, regulations, and human behavioral expectations. There is substantial literature concerning the aversion of obvious catastrophes like crashing a helicopter or bankrupting a trading account, but little around the avoidance of subtle non-normative behavior for which there are examples, but no programmable definition. Such behavior may violate legal or regulatory, rather than physical or monetary, constraints. In this article, I consider a series of experiments in which an intelligent stock trading agent maximizes profit but may also inadvertently learn to spoof the market in which it participates. I first inject a hand-coded spoofing agent to a multi-agent market simulation and learn to recognize spoofing activity sequences. Then I replace the hand-coded spoofing trader with a simple profit-maximizing RL agent and observe that it independently discovers spoofing as the optimal strategy. Finally, I introduce a method to incorporate the recognizer as normative guide, shaping the agent’s perceived rewards and altering its selected actions. The agent remains profitable while avoiding spoofing behaviors that would result in even higher profit. After presenting the empirical results, I conclude with some recommendations. The method should generalize to the reduction of any unwanted behavior for which a recognizer can be learned.
arxiv情報
著者 | David Byrd |
発行日 | 2023-06-09 17:49:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google