Redefining Counterfactual Explanations for Reinforcement Learning: Overview, Challenges and Opportunities

要約

AI アルゴリズムはさまざまな分野で目覚ましい成功を収めていますが、透明性の欠如により現実のタスクへの適用が妨げられています。
ユーザーの信頼や人間とAIの連携には非専門家を対象とした説明が必要ですが、AIの説明手法の多くは開発者や専門ユーザーを対象としています。
反事実的な説明は、ブラック ボックス モデルの出力を変更するために入力の何を変更できるかについてユーザーにアドバイスを提供するローカルな説明です。
反事実はユーザーフレンドリーで、AI システムから望ましい出力を達成するための実用的なアドバイスを提供します。
教師あり学習については広く研究されていますが、それを強化学習 (RL) に適用する方法はほとんどありません。
この研究では、RL における強力な説明方法が過小評価されている理由を調査します。
まず、教師あり学習における反事実の説明における現在の作業をレビューします。
さらに、教師あり学習と RL における反事実の説明の違いを調査し、強化学習における教師あり手法の採用を妨げる主な課題を特定します。
最後に、RL の反事実を再定義し、RL で反事実を実装するための研究の方向性を提案します。

要約(オリジナル)

While AI algorithms have shown remarkable success in various fields, their lack of transparency hinders their application to real-life tasks. Although explanations targeted at non-experts are necessary for user trust and human-AI collaboration, the majority of explanation methods for AI are focused on developers and expert users. Counterfactual explanations are local explanations that offer users advice on what can be changed in the input for the output of the black-box model to change. Counterfactuals are user-friendly and provide actionable advice for achieving the desired output from the AI system. While extensively researched in supervised learning, there are few methods applying them to reinforcement learning (RL). In this work, we explore the reasons for the underrepresentation of a powerful explanation method in RL. We start by reviewing the current work in counterfactual explanations in supervised learning. Additionally, we explore the differences between counterfactual explanations in supervised learning and RL and identify the main challenges that prevent the adoption of methods from supervised in reinforcement learning. Finally, we redefine counterfactuals for RL and propose research directions for implementing counterfactuals in RL.

arxiv情報

著者 Jasmina Gajcin,Ivana Dusparic
発行日 2024-02-09 15:28:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク