Counterfactual Strategies for Markov Decision Processes

要約

反事実はAIで広く使用されており、モデルの入力の最小限の変更が異なる出力につながる可能性があることを説明します。
ただし、反事実を計算するための確立された方法は、通常、1段階の意思決定に焦点を当てており、順次の意思決定タスクに直接適用できません。
このペーパーでは、マルコフ決定プロセス(MDP)の反事実的戦略を導入することにより、このギャップを埋めます。
MDPの実行中、戦略は、次に実行する有効なアクション(既知の確率的効果を持つ)を決定します。
制限を上回る確率で望ましくない結果に達する初期戦略を考えると、その確率を制限以下に減らすための初期戦略の最小限の変更を特定します。
非線形最適化問題の解決策などの反事実的戦略をエンコードし、さらにエンコードを拡張して、多様な反事実戦略を合成します。
4つの実際のデータセットでアプローチを評価し、洗練された順次意思決定タスクにおけるその実用的な実行可能性を実証します。

要約(オリジナル)

Counterfactuals are widely used in AI to explain how minimal changes to a model’s input can lead to a different output. However, established methods for computing counterfactuals typically focus on one-step decision-making, and are not directly applicable to sequential decision-making tasks. This paper fills this gap by introducing counterfactual strategies for Markov Decision Processes (MDPs). During MDP execution, a strategy decides which of the enabled actions (with known probabilistic effects) to execute next. Given an initial strategy that reaches an undesired outcome with a probability above some limit, we identify minimal changes to the initial strategy to reduce that probability below the limit. We encode such counterfactual strategies as solutions to non-linear optimization problems, and further extend our encoding to synthesize diverse counterfactual strategies. We evaluate our approach on four real-world datasets and demonstrate its practical viability in sophisticated sequential decision-making tasks.

arxiv情報

著者 Paul Kobialka,Lina Gerlach,Francesco Leofante,Erika Ábrahám,Silvia Lizeth Tapia Tarifa,Einar Broch Johnsen
発行日 2025-05-14 14:07:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, I.2.m パーマリンク