Does It Make Sense to Explain a Black Box With Another Black Box?

要約

反事実的な説明は、ML ブラックボックス分類器を説明する一般的なアプローチですが、NLP ではあまり普及していません。
ほとんどの手法では、対象文書がブラック ボックスによって別の方法で分類されるまで、対象文書を繰り返し摂動させることで、これらの説明を見つけます。
我々は、文献にある反事実的な説明手法の 2 つの主な系統を特定します。すなわち、(a) 単語を追加、削除、または置き換えることによって対象を混乱させる \emph{透明} 手法、および (b) 対象を投影する \emph{不透明} 手法です。
ターゲットドキュメントを潜在的な解釈不可能な空間に移し、その後摂動が実行されます。
この記事では、3 つの古典的な NLP タスクに対するこれら 2 つのメソッド ファミリのパフォーマンスの比較研究を提供します。
私たちの経験的証拠は、不透明なアプローチは、大幅なパフォーマンスの向上がなくても、さらなる複雑さのレベルを追加するため、フェイクニュース検出やセンチメント分析などの下流アプリケーションにとって過剰になる可能性があることを示しています。
これらの観察は私たちの議論の動機となり、ブラック ボックスを別のブラック ボックスを使って説明することが意味があるのか​​どうかという疑問が生じます。

要約(オリジナル)

Although counterfactual explanations are a popular approach to explain ML black-box classifiers, they are less widespread in NLP. Most methods find those explanations by iteratively perturbing the target document until it is classified differently by the black box. We identify two main families of counterfactual explanation methods in the literature, namely, (a) \emph{transparent} methods that perturb the target by adding, removing, or replacing words, and (b) \emph{opaque} approaches that project the target document into a latent, non-interpretable space where the perturbation is carried out subsequently. This article offers a comparative study of the performance of these two families of methods on three classical NLP tasks. Our empirical evidence shows that opaque approaches can be an overkill for downstream applications such as fake news detection or sentiment analysis since they add an additional level of complexity with no significant performance gain. These observations motivate our discussion, which raises the question of whether it makes sense to explain a black box using another black box.

arxiv情報

著者 Julien Delaunay,Luis Galárraga,Christine Largouët
発行日 2024-04-23 11:40:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.LG パーマリンク