K-SHAP: Policy Clustering Algorithm for Anonymous Multi-Agent State-Action Pairs

要約

観察データからエージェントの行動を学習すると、エージェントの意思決定プロセスの理解が深まり、エージェントと環境や他のエージェントとの相互作用を説明する能力が向上することが示されています。
複数の学習手法が文献で提案されていますが、まだ検討されていない特定の設定が 1 つあります。それは、エージェント ID が匿名のままであるマルチエージェント システムです。
たとえば、金融市場では、市場参加者の戦略を特定するラベル付きデータは通常独占的であり、複数の市場参加者の相互作用から生じる匿名の状態と行動のペアのみが公的に利用可能です。
その結果、エージェントの一連のアクションが観察できなくなり、既存の作業の適用性が制限されます。
この論文では、エージェントのポリシーに従って匿名の状態とアクションのペアをグループ化することを学習する、K-SHAP と呼ばれるポリシー クラスタリング アルゴリズムを提案します。
私たちは問題を模倣学習 (IL) タスクとして組み立て、さまざまな環境状態におけるすべてのエージェントの行動を模倣できる世界政策を学習します。
私たちはワールド ポリシーを利用して、SHAP (SHApley Additive exPlanations) と呼ばれる付加的な特徴帰属手法を通じて匿名の各観察を説明します。
最後に、説明をクラスタリングすることで、さまざまなエージェント ポリシーを特定し、それに応じて観察をグループ化できることを示します。
私たちは、シミュレートされた合成市場データと現実世界の金融データセットに基づいてアプローチを評価します。
さまざまなエージェント戦略を特定し、私たちの提案が既存の方法よりも大幅かつ一貫して優れていることを示します。

要約(オリジナル)

Learning agent behaviors from observational data has shown to improve our understanding of their decision-making processes, advancing our ability to explain their interactions with the environment and other agents. While multiple learning techniques have been proposed in the literature, there is one particular setting that has not been explored yet: multi agent systems where agent identities remain anonymous. For instance, in financial markets labeled data that identifies market participant strategies is typically proprietary, and only the anonymous state-action pairs that result from the interaction of multiple market participants are publicly available. As a result, sequences of agent actions are not observable, restricting the applicability of existing work. In this paper, we propose a Policy Clustering algorithm, called K-SHAP, that learns to group anonymous state-action pairs according to the agent policies. We frame the problem as an Imitation Learning (IL) task, and we learn a world-policy able to mimic all the agent behaviors upon different environmental states. We leverage the world-policy to explain each anonymous observation through an additive feature attribution method called SHAP (SHapley Additive exPlanations). Finally, by clustering the explanations we show that we are able to identify different agent policies and group observations accordingly. We evaluate our approach on simulated synthetic market data and a real-world financial dataset. We show that our proposal significantly and consistently outperforms the existing methods, identifying different agent strategies.

arxiv情報

著者 Andrea Coletta,Svitlana Vyetrenko,Tucker Balch
発行日 2023-06-26 12:36:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク