Robust Counterfactual Inference in Markov Decision Processes

要約

このペーパーでは、マルコフ決定プロセス(MDP)の既存の反事実的推論方法の重要な制限について説明します。
現在のアプローチは、反事実を識別できるようにする特定の因果モデルを想定しています。
ただし、通常、MDPの観察および介入分布に沿った多くの因果モデルがあり、それぞれが異なる反事実的分布を生成するため、特定の因果モデルを修正すると、反事実的推論の妥当性(および有用性)が制限されます。
すべての互換性のある因果モデルにわたって反事実的遷移確率で密接な境界を計算する新しいノンパラメトリックアプローチを提案します。
法外に大きな最適化の問題を解決する必要がある以前の方法(MDPのサイズで指数関数的に成長する変数を使用)とは異なり、私たちのアプローチはこれらの境界の閉じた式式を提供し、計算を非常に効率的でスケーラブルにします。
このような間隔の反事実的なMDPが構築されると、私たちの方法は、最悪の報酬W.R.Tを最適化する堅牢な反事実的ポリシーを識別します。
不確実な間隔MDP確率。
さまざまなケーススタディでの方法を評価し、既存の方法に対する堅牢性の向上を示しています。

要約(オリジナル)

This paper addresses a key limitation in existing counterfactual inference methods for Markov Decision Processes (MDPs). Current approaches assume a specific causal model to make counterfactuals identifiable. However, there are usually many causal models that align with the observational and interventional distributions of an MDP, each yielding different counterfactual distributions, so fixing a particular causal model limits the validity (and usefulness) of counterfactual inference. We propose a novel non-parametric approach that computes tight bounds on counterfactual transition probabilities across all compatible causal models. Unlike previous methods that require solving prohibitively large optimisation problems (with variables that grow exponentially in the size of the MDP), our approach provides closed-form expressions for these bounds, making computation highly efficient and scalable for non-trivial MDPs. Once such an interval counterfactual MDP is constructed, our method identifies robust counterfactual policies that optimise the worst-case reward w.r.t. the uncertain interval MDP probabilities. We evaluate our method on various case studies, demonstrating improved robustness over existing methods.

arxiv情報

著者 Jessica Lally,Milad Kazemi,Nicola Paoletti
発行日 2025-03-27 14:20:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク