要約
マルチエージェント強化学習 (MARL) システムの社会全体への導入が進むにつれ、複雑な環境における MARL エージェントの新たな動作を理解することは、ユーザーにとって不可欠ではありますが、困難でもあります。
この研究では、一時的なユーザーのクエリに答えるための MARL のポリシーレベルの対照的な説明を生成するアプローチを提示します。この説明は、協力する可能性のあるエージェントによって完了される一連のタスクを指定します。
提案されたアプローチは、時間クエリを PCTL 論理式としてエンコードし、確率モデル チェックを通じてクエリが特定の MARL ポリシーの下で実行可能かどうかをチェックします。
このような説明は、マルチエージェントの実際の行動と予想される行動の間の矛盾を調整するのに役立ちます。
提案されたアプローチは、ユーザーのクエリを実行不可能にする理由を正確に特定するための、正確かつ完全な説明も生成します。
提案したアプローチを 4 つのベンチマーク MARL ドメイン (1 つのドメインに最大 9 つのエージェント) に適用することに成功しました。
さらに、ユーザー調査の結果は、生成された説明によってユーザーのパフォーマンスと満足度が大幅に向上することを示しています。
要約(オリジナル)
As multi-agent reinforcement learning (MARL) systems are increasingly deployed throughout society, it is imperative yet challenging for users to understand the emergent behaviors of MARL agents in complex environments. This work presents an approach for generating policy-level contrastive explanations for MARL to answer a temporal user query, which specifies a sequence of tasks completed by agents with possible cooperation. The proposed approach encodes the temporal query as a PCTL logic formula and checks if the query is feasible under a given MARL policy via probabilistic model checking. Such explanations can help reconcile discrepancies between the actual and anticipated multi-agent behaviors. The proposed approach also generates correct and complete explanations to pinpoint reasons that make a user query infeasible. We have successfully applied the proposed approach to four benchmark MARL domains (up to 9 agents in one domain). Moreover, the results of a user study show that the generated explanations significantly improve user performance and satisfaction.
arxiv情報
著者 | Kayla Boggess,Sarit Kraus,Lu Feng |
発行日 | 2023-05-17 17:04:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google