K-SHAP: Policy Clustering Algorithm for Anonymous State-Action Pairs

要約

タイトル:匿名な状態とアクションペアに対するポリシークラスタリングアルゴリズム「K-SHAP」

要約:

– 監視データから学習エージェントの動作を理解すると、環境や他のエージェントとの相互作用を説明する能力が向上します。
– 文献では、多数の学習技術が提案されてきましたが、エージェントのアイデンティティが匿名のマルチエージェントシステムにはまだ取り組まれていません。
– たとえば、金融市場では、市場参加者の戦略を識別する標準的なデータは一般にプロプライエタリであり、複数の市場参加者の相互作用から生じる匿名状態-アクションペアのみが公開されています。
– 結果として、エージェントのアクションのシーケンスは観測できず、既存の研究の適用範囲が制限されています。
– この論文では、エージェントのポリシーに基づいて匿名な状態-アクションペアをグループ化するポリシークラスタリングアルゴリズム「K-SHAP」を提案します。
– 問題を模倣学習(IL)タスクとしてフレーミングし、異なる環境状態ですべてのエージェントの行動を模倣できる世界ポリシーを学習します。
– 我々は説明を加える特徴の加算方法である「SHAP(Shapley Additive exPlanations)」を使って、各匿名観察を説明します。最後に、説明をクラスタリングして、異なるエージェントポリシーを識別し、観測をグループ化できることを示します。
– 我々は、合成されたシミュレーション市場データと実世界の金融データで我々のアプローチを評価しました。
– 我々は、提案手法が既存の方法を有意義に、一貫して上回り、異なるエージェント戦略を識別することを示しました。

要約(オリジナル)

Learning agent behaviors from observational data has shown to improve our understanding of their decision-making processes, advancing our ability to explain their interactions with the environment and other agents. While multiple learning techniques have been proposed in the literature, there is one particular setting that has not been explored yet: multi agent systems where agent identities remain anonymous. For instance, in financial markets labeled data that identifies market participant strategies is typically proprietary, and only the anonymous state-action pairs that result from the interaction of multiple market participants are publicly available. As a result, sequences of agent actions are not observable, restricting the applicability of existing work. In this paper, we propose a Policy Clustering algorithm, called K-SHAP, that learns to group anonymous state-action pairs according to the agent policies. We frame the problem as an Imitation Learning (IL) task, and we learn a world-policy able to mimic all the agent behaviors upon different environmental states. We leverage the world-policy to explain each anonymous observation through an additive feature attribution method called SHAP (SHapley Additive exPlanations). Finally, by clustering the explanations we show that we are able to identify different agent policies and group observations accordingly. We evaluate our approach on simulated synthetic market data and a real-world financial dataset. We show that our proposal significantly and consistently outperforms the existing methods, identifying different agent strategies.

arxiv情報

著者 Andrea Coletta,Svitlana Vyetrenko,Tucker Balch
発行日 2023-04-13 14:19:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク