要約
反事実的説明は、人工知能モデルを説明するための一般的なツールです。
強化学習 (RL) エージェントの場合、彼らは「理由は?」と答えます。
または「もしも?」
エージェントが別のアクションを選択するために必要な状態への最小限の変更を示すことにより、質問を行います。
視覚的な入力を使用して RL エージェントの反事実の説明を生成することは、その大きな状態空間と、その決定が長期的な意思決定を含む包括的なポリシーの一部であるため、特に困難です。
ただし、反事実の説明に焦点を当てた研究、特に視覚入力を伴う RL エージェントの研究は少なく、欠陥のあるエージェントを特定する以上のものではありません。
さまざまなエージェントの学習戦略の分析や、特定のタスクに適したエージェントの選択など、より複雑なタスクに反事実の説明が依然として役立つかどうかは不明です。
StarGANのような敵対的学習技術の使用を可能にするドメイン転送問題として問題を定式化することにより、RLエージェントの反事実の説明を生成するための斬新でシンプルな方法を提案します。
私たちの方法は完全にモデルにとらわれず、いくつかの計算メトリックで以前の唯一の方法よりも優れていることを示しています。
さらに、ユーザー調査で、異なるエージェントが追求する戦略を分析する際に、この方法が最も効果的であることを示しています。
要約(オリジナル)
Counterfactual explanations are a common tool to explain artificial intelligence models. For Reinforcement Learning (RL) agents, they answer ‘Why not?’ or ‘What if?’ questions by illustrating what minimal change to a state is needed such that an agent chooses a different action. Generating counterfactual explanations for RL agents with visual input is especially challenging because of their large state spaces and because their decisions are part of an overarching policy, which includes long-term decision-making. However, research focusing on counterfactual explanations, specifically for RL agents with visual input, is scarce and does not go beyond identifying defective agents. It is unclear whether counterfactual explanations are still helpful for more complex tasks like analyzing the learned strategies of different agents or choosing a fitting agent for a specific task. We propose a novel but simple method to generate counterfactual explanations for RL agents by formulating the problem as a domain transfer problem which allows the use of adversarial learning techniques like StarGAN. Our method is fully model-agnostic and we demonstrate that it outperforms the only previous method in several computational metrics. Furthermore, we show in a user study that our method performs best when analyzing which strategies different agents pursue.
arxiv情報
著者 | Tobias Huber,Maximilian Demmler,Silvan Mertes,Matthew L. Olson,Elisabeth André |
発行日 | 2023-02-24 15:29:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google