K-SHAP: Policy Clustering Algorithm for Anonymous State-Action Pairs

要約

観察データからエージェントの行動を学習することで、意思決定プロセスの理解が向上し、環境や他のエージェントとの相互作用を説明する能力が向上します。
複数の学習手法が文献で提案されていますが、まだ調査されていない特定の設定が 1 つあります。それは、エージェントの ID が匿名のままであるマルチエージェント システムです。
たとえば、金融市場では、市場参加者の戦略を識別するラベル付きデータは通常、独自のものであり、複数の市場参加者の相互作用から生じる匿名の状態と行動のペアのみが公開されています。
その結果、一連のエージェント アクションは観察できず、既存の作業の適用性が制限されます。
この論文では、K-SHAP と呼ばれるポリシー クラスタリング アルゴリズムを提案します。これは、エージェント ポリシーに従って、匿名の状態とアクションのペアをグループ化することを学習します。
問題を模倣学習(IL)タスクとして組み立て、さまざまな環境状態でのすべてのエージェントの動作を模倣できる世界政策を学習します。
世界政策を活用して、SHAP (SHApley Additive exPlanations) と呼ばれる加法的特徴帰属法を通じて、各匿名観測を説明します。
最後に、説明をクラスター化することで、さまざまなエージェント ポリシーを識別し、それに応じて観察結果をグループ化できることを示します。
シミュレートされた合成市場データと現実世界の金融データセットに対するアプローチを評価します。
さまざまなエージェント戦略を特定し、提案が既存の方法よりも大幅かつ一貫して優れていることを示します。

要約(オリジナル)

Learning agent behaviors from observational data has shown to improve our understanding of their decision-making processes, advancing our ability to explain their interactions with the environment and other agents. While multiple learning techniques have been proposed in the literature, there is one particular setting that has not been explored yet: multi agent systems where agent identities remain anonymous. For instance, in financial markets labeled data that identifies market participant strategies is typically proprietary, and only the anonymous state-action pairs that result from the interaction of multiple market participants are publicly available. As a result, sequences of agent actions are not observable, restricting the applicability of existing work. In this paper, we propose a Policy Clustering algorithm, called K-SHAP, that learns to group anonymous state-action pairs according to the agent policies. We frame the problem as an Imitation Learning (IL) task, and we learn a world-policy able to mimic all the agent behaviors upon different environmental states. We leverage the world-policy to explain each anonymous observation through an additive feature attribution method called SHAP (SHapley Additive exPlanations). Finally, by clustering the explanations we show that we are able to identify different agent policies and group observations accordingly. We evaluate our approach on simulated synthetic market data and a real-world financial dataset. We show that our proposal significantly and consistently outperforms the existing methods, identifying different agent strategies.

arxiv情報

著者 Andrea Coletta,Svitlana Vyetrenko,Tucker Balch
発行日 2023-02-23 13:18:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク