Towards Computationally Efficient Responsibility Attribution in Decentralized Partially Observable MDPs

要約

責任の帰属は、説明責任のあるマルチエージェントの意思決定の重要な概念です。
一連のアクションが与えられると、責任帰属メカニズムは、参加する各エージェントの最終結果への影響を定量化します。
そのような一般的なメカニズムの 1 つは、実際の因果関係に基づいており、考慮された結果にとって極めて重要であることがわかったアクションに基づいて (因果関係) 責任を割り当てます。
しかし、実際の原因を特定し、その結果として正確な責任の割り当てを決定するという固有の問題は、計算上扱いにくいことが示されています。
この論文では、計算予算の下での責任帰属の問題に対する実用的なアルゴリズムソリューションを提供することを目的としています。
最初に、構造的因果モデル (SCM) の特定のクラスによって拡張された分散型部分観測マルコフ決定プロセス (Dec-POMDP) のフレームワークで問題を形式化します。
このフレームワークの下で、エージェントの責任度を効率的に近似するモンテカルロ木探索 (MCTS) タイプの方法を導入します。
この方法は、責任の帰属の問題に合わせて調整された、新しい検索ツリーの構造と枝刈り手法を利用します。
私たちの方法の他の新しいコンポーネントは、(a) 線形スカラー化に基づく子選択ポリシー、および (b) 実際の因果関係を定義するために通常使用される最小条件を説明する逆伝播手順です。
3つのチームベースのカードゲームを含むシミュレーションベースのテストベッドを通じて、アルゴリズムの有効性を実験的に評価します。

要約(オリジナル)

Responsibility attribution is a key concept of accountable multi-agent decision making. Given a sequence of actions, responsibility attribution mechanisms quantify the impact of each participating agent to the final outcome. One such popular mechanism is based on actual causality, and it assigns (causal) responsibility based on the actions that were found to be pivotal for the considered outcome. However, the inherent problem of pinpointing actual causes and consequently determining the exact responsibility assignment has shown to be computationally intractable. In this paper, we aim to provide a practical algorithmic solution to the problem of responsibility attribution under a computational budget. We first formalize the problem in the framework of Decentralized Partially Observable Markov Decision Processes (Dec-POMDPs) augmented by a specific class of Structural Causal Models (SCMs). Under this framework, we introduce a Monte Carlo Tree Search (MCTS) type of method which efficiently approximates the agents’ degrees of responsibility. This method utilizes the structure of a novel search tree and a pruning technique, both tailored to the problem of responsibility attribution. Other novel components of our method are (a) a child selection policy based on linear scalarization and (b) a backpropagation procedure that accounts for a minimality condition that is typically used to define actual causality. We experimentally evaluate the efficacy of our algorithm through a simulation-based test-bed, which includes three team-based card games.

arxiv情報

著者 Stelios Triantafyllou,Goran Radanovic
発行日 2023-02-24 14:56:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク