Explaining Model Confidence Using Counterfactuals

要約

人間と AI のやり取りで信頼スコアを表示することは、人間と AI システム間の信頼関係の構築に役立つことが示されています。
ただし、既存の研究のほとんどは、コミュニケーションの形式として信頼スコアのみを使用しています。
信頼スコアは別のモデル出力にすぎないため、ユーザーは、信頼スコアを受け入れるかどうかを決定するためにアルゴリズムが信頼できる理由を理解したい場合があります。
この論文では、信頼スコアの反事実的な説明が、研究参加者が機械学習モデルの予測をよりよく理解し、信頼するのに役立つことを示しています。
反事実の説明を使用してモデルの信頼性を理解するための 2 つの方法を提示します。(1) 反事実の例に基づく。
(2)反事実空間の視覚化に基づく。
どちらも説明なしのベースラインよりも研究参加者の理解と信頼を高めますが、定性的な結果は、それらがまったく異なる方法で使用されていることを示しており、それぞれをいつ使用するかの推奨事項と、より良い説明を設計する方向性につながります.

要約(オリジナル)

Displaying confidence scores in human-AI interaction has been shown to help build trust between humans and AI systems. However, most existing research uses only the confidence score as a form of communication. As confidence scores are just another model output, users may want to understand why the algorithm is confident to determine whether to accept the confidence score. In this paper, we show that counterfactual explanations of confidence scores help study participants to better understand and better trust a machine learning model’s prediction. We present two methods for understanding model confidence using counterfactual explanation: (1) based on counterfactual examples; and (2) based on visualisation of the counterfactual space. Both increase understanding and trust for study participants over a baseline of no explanation, but qualitative results show that they are used quite differently, leading to recommendations of when to use each one and directions of designing better explanations.

arxiv情報

著者 Thao Le,Tim Miller,Ronal Singh,Liz Sonenberg
発行日 2023-03-10 06:22:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG パーマリンク