ACTER: Diverse and Actionable Counterfactual Sequences for Explaining and Diagnosing RL Policies

要約

デバッグを可能にし、ユーザーの信頼を維持し、パーソナライズされたポリシーを開発するには、強化学習 (RL) で障害がどのように発生するか、およびそれをどのように防ぐことができるかを理解することが必要です。
反事実的推論は、失敗が回避される可能な限り近い世界を探すことによって責任を割り当て、失敗を理解するためによく使用されてきました。
しかし、RL における現在の反事実的な状態の説明は、現在の状態の特徴だけを使用して結果を説明することしかできず、否定的な結果をどのようにして防ぐことができたのかについての実用的な手段を提供しません。
この研究では、失敗を回避する方法について実用的なアドバイスを提供する反事実シーケンスを生成するアルゴリズムである ACTER (強化学習結果を説明するための実用的な反事実シーケンス) を提案します。
ACTER は、障害につながるアクションを調査し、進化的アルゴリズム NSGA-II を使用して、確率的環境であっても最小限の変更と高い確実性で失敗を防ぐ反事実的な一連のアクションを生成します。
さらに、ACTER は複数の多様な反事実シーケンスのセットを生成し、ユーザーが自分の好みに最も適した方法で失敗を修正できるようにします。
また、反事実シーケンスの多様性を評価するために使用できる 3 つの多様性メトリックも紹介します。
我々は、離散アクションと連続アクションの両方を備えた 2 つの RL 環境で ACTER を評価し、実用的で多様な反事実シーケンスを生成できることを示します。
私たちはユーザー調査を実施して、ACTER によって生成された説明がユーザーが障害を特定して修正するのにどのように役立つかを調査します。

要約(オリジナル)

Understanding how failure occurs and how it can be prevented in reinforcement learning (RL) is necessary to enable debugging, maintain user trust, and develop personalized policies. Counterfactual reasoning has often been used to assign blame and understand failure by searching for the closest possible world in which the failure is avoided. However, current counterfactual state explanations in RL can only explain an outcome using just the current state features and offer no actionable recourse on how a negative outcome could have been prevented. In this work, we propose ACTER (Actionable Counterfactual Sequences for Explaining Reinforcement Learning Outcomes), an algorithm for generating counterfactual sequences that provides actionable advice on how failure can be avoided. ACTER investigates actions leading to a failure and uses the evolutionary algorithm NSGA-II to generate counterfactual sequences of actions that prevent it with minimal changes and high certainty even in stochastic environments. Additionally, ACTER generates a set of multiple diverse counterfactual sequences that enable users to correct failure in the way that best fits their preferences. We also introduce three diversity metrics that can be used for evaluating the diversity of counterfactual sequences. We evaluate ACTER in two RL environments, with both discrete and continuous actions, and show that it can generate actionable and diverse counterfactual sequences. We conduct a user study to explore how explanations generated by ACTER help users identify and correct failure.

arxiv情報

著者 Jasmina Gajcin,Ivana Dusparic
発行日 2024-02-09 16:12:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク