Counterfactual Influence in Markov Decision Processes

要約

私たちの研究は、マルコフ意思決定プロセス (MDP) の反事実推論の文脈における根本的な問題に取り組んでいます。
MDP パス $\tau$ が与えられると、この種の推論により、$\tau$ で観察されたものとは異なるアクション シーケンスの下で取得される $\tau$ の仮定のバージョンを記述する反事実パス $\tau’$ を導出することができます。
しかし、時間の経過とともに反事実の状態や行動が観察されたものから逸脱すると、観察 $\tau$ は反事実の世界に影響を与えなくなる可能性があります。つまり、分析が個々の観察に合わせて調整されなくなり、反事実ではなく介入的な結果がもたらされます。
もの。
この問題は、MDP の反事実に使用される一般的なガンベルマックス構造因果モデルに特に影響を及ぼしますが、これまで見過ごされてきました。
この研究では、反事実分布と介入分布の比較に基づいた影響力の正式な特徴付けを導入します。
影響制約を自動的に満たす反事実モデルを構築するアルゴリズムを考案します。
このようなモデルを活用することで、特定の報酬構造に最適なだけでなく、観察された経路に合わせて調整された反事実的なポリシーを導き出すことができます。
政策の最適性と影響力の制約の間には避けられないトレードオフがありますが、私たちの実験は、観察の影響下にありながら(ほぼ)最適な政策を導き出すことが可能であることを示しています。

要約(オリジナル)

Our work addresses a fundamental problem in the context of counterfactual inference for Markov Decision Processes (MDPs). Given an MDP path $\tau$, this kind of inference allows us to derive counterfactual paths $\tau’$ describing what-if versions of $\tau$ obtained under different action sequences than those observed in $\tau$. However, as the counterfactual states and actions deviate from the observed ones over time, the observation $\tau$ may no longer influence the counterfactual world, meaning that the analysis is no longer tailored to the individual observation, resulting in interventional outcomes rather than counterfactual ones. Even though this issue specifically affects the popular Gumbel-max structural causal model used for MDP counterfactuals, it has remained overlooked until now. In this work, we introduce a formal characterisation of influence based on comparing counterfactual and interventional distributions. We devise an algorithm to construct counterfactual models that automatically satisfy influence constraints. Leveraging such models, we derive counterfactual policies that are not just optimal for a given reward structure but also remain tailored to the observed path. Even though there is an unavoidable trade-off between policy optimality and strength of influence constraints, our experiments demonstrate that it is possible to derive (near-)optimal policies while remaining under the influence of the observation.

arxiv情報

著者 Milad Kazemi,Jessica Lally,Ekaterina Tishchenko,Hana Chockler,Nicola Paoletti
発行日 2024-02-13 15:10:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク