要約
解釈可能性は、人間に理解可能な言葉でモデルを説明する研究です。
現在、解釈可能性は 2 つのパラダイムに分けられます。1 つは説明できるように設計されたモデルのみが説明できると考える内在的パラダイム、もう 1 つはブラックボックス モデルが説明できると考えるポストホック パラダイムです。
この議論の核心は、各パラダイムがその説明が忠実であること、つまりモデルの動作に忠実であることをどのように保証するかということです。
誤っていても説得力のある説明は人工知能 (AI) に対する根拠のない信頼につながり、危険な可能性があるため、これは重要です。
忠実さについて警戒しつつ、新たなパラダイムを考えるべきというのが本稿の立場である。
まず、科学におけるパラダイムの歴史を調べると、パラダイムが常に進化していることがわかります。
そして、現在のパラダイムを調べることで、その根底にある信念、それがもたらす価値、そしてその限界を理解することができます。
最後に、この論文では、解釈可能性に関する 3 つの新たなパラダイムを紹介します。
最初のパラダイムは、忠実度を簡単に測定できるようにモデルを設計します。
もう 1 つは、説明が忠実になるようにモデルを最適化します。
最後のパラダイムは、予測と説明の両方を生成するモデルを開発することを提案しています。
要約(オリジナル)
Interpretability is the study of explaining models in understandable terms to humans. At present, interpretability is divided into two paradigms: the intrinsic paradigm, which believes that only models designed to be explained can be explained, and the post-hoc paradigm, which believes that black-box models can be explained. At the core of this debate is how each paradigm ensures its explanations are faithful, i.e., true to the model’s behavior. This is important, as false but convincing explanations lead to unsupported confidence in artificial intelligence (AI), which can be dangerous. This paper’s position is that we should think about new paradigms while staying vigilant regarding faithfulness. First, by examining the history of paradigms in science, we see that paradigms are constantly evolving. Then, by examining the current paradigms, we can understand their underlying beliefs, the value they bring, and their limitations. Finally, this paper presents 3 emerging paradigms for interpretability. The first paradigm designs models such that faithfulness can be easily measured. Another optimizes models such that explanations become faithful. The last paradigm proposes to develop models that produce both a prediction and an explanation.
arxiv情報
著者 | Andreas Madsen,Himabindu Lakkaraju,Siva Reddy,Sarath Chandar |
発行日 | 2024-11-13 01:40:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google