Concept-Based Explanations to Test for False Causal Relationships Learned by Abusive Language Classifiers

要約

分類子は、過剰に表現された概念とラベルの間の誤った因果関係を学習する傾向があり、その結果、概念に過度に依存し、分類精度が損なわれる可能性があります。
さまざまなモデルを比較し、特定の概念への過度の依存を特定できる方法を導入することが不可欠です。
私たちは、大規模な英語のデータセットでトレーニングされた 3 つのよく知られた虐待言語分類器を検討し、否定的な感情の概念に焦点を当てます。これは重要なシグナルではありますが、虐待のラベルを付けるための十分な特徴として学習すべきではありません。
大域的十分性の定義に基づいて、私たちは最初に、すべての決定しきい値にわたって設定された課題に対する分類器の精度を評価することによって、分類器によって学習された不要な依存関係を調べます。
さらに、チャレンジセットが常に利用できるとは限らないことを認識し、コンセプトがラベルに及ぼす影響を評価するためにコンセプトベースの説明指標を導入します。
これらの説明により、概念とラベルの間で学習した誤った大域的十分性の程度に関して分類器を比較することができます。

要約(オリジナル)

Classifiers tend to learn a false causal relationship between an over-represented concept and a label, which can result in over-reliance on the concept and compromised classification accuracy. It is imperative to have methods in place that can compare different models and identify over-reliances on specific concepts. We consider three well-known abusive language classifiers trained on large English datasets and focus on the concept of negative emotions, which is an important signal but should not be learned as a sufficient feature for the label of abuse. Motivated by the definition of global sufficiency, we first examine the unwanted dependencies learned by the classifiers by assessing their accuracy on a challenge set across all decision thresholds. Further, recognizing that a challenge set might not always be available, we introduce concept-based explanation metrics to assess the influence of the concept on the labels. These explanations allow us to compare classifiers regarding the degree of false global sufficiency they have learned between a concept and a label.

arxiv情報

著者 Isar Nejadgholi,Svetlana Kiritchenko,Kathleen C. Fraser,Esma Balkır
発行日 2023-07-04 19:57:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク