DISCO: DISCovering Overfittings as Causal Rules for Text Classification Models

要約

ニューラル言語モデルの急速な進歩に伴い、過剰にパラメータ化されたモデルの導入が急増し、人間の検査者が理解できる解釈可能な説明の必要性が高まっています。
既存の事後解釈可能性手法は、多くの場合、単一入力テキスト インスタンスのユニグラム特徴に焦点を当てており、モデルの意思決定プロセスを完全に捉えることができません。
さらに、多くの方法では、偽の相関に基づく決定と、入力の全体的な理解に基づく決定とを区別していません。
私たちの論文では、モデル予測との因果関係を特定することで、グローバルなルールベースの説明を発見するための新しい方法である DISCO を紹介します。
この手法では、スケーラブルなシーケンス マイニング手法を採用して、トレーニング データから関連するテキスト スパンを抽出し、それらをモデル予測と関連付け、因果関係チェックを実行して、モデルの動作を解明する堅牢なルールを抽出します。
これらのルールは潜在的な過剰適合を明らかにし、誤解を招く機能の組み合わせについての洞察を提供します。
当社は広範なテストを通じて DISCO を検証し、複雑なモデルの動作に対する包括的な洞察を提供する点で既存の方法よりも DISCO が優れていることを実証しています。
私たちのアプローチは、トレーニング データに手動で導入されたすべてのショートカットを正常に識別し (MultiRC データセットでの検出率 100%)、その結果、モデルのパフォーマンスが 18.8% 低下しました。これは、他の方法では比類のない機能です。
さらに、DISCO はインタラクティブな説明をサポートしており、人間の検査員がルールベースの出力で誤った原因を区別できるようになります。
これにより、豊富なインスタンスごとの説明の負担が軽減され、配布外 (OOD) データに遭遇した場合のモデルのリスクを評価するのに役立ちます。

要約(オリジナル)

With the rapid advancement of neural language models, the deployment of over-parameterized models has surged, increasing the need for interpretable explanations comprehensible to human inspectors. Existing post-hoc interpretability methods, which often focus on unigram features of single input textual instances, fail to capture the models’ decision-making process fully. Additionally, many methods do not differentiate between decisions based on spurious correlations and those based on a holistic understanding of the input. Our paper introduces DISCO, a novel method for discovering global, rule-based explanations by identifying causal n-gram associations with model predictions. This method employs a scalable sequence mining technique to extract relevant text spans from training data, associate them with model predictions, and conduct causality checks to distill robust rules that elucidate model behavior. These rules expose potential overfitting and provide insights into misleading feature combinations. We validate DISCO through extensive testing, demonstrating its superiority over existing methods in offering comprehensive insights into complex model behaviors. Our approach successfully identifies all shortcuts manually introduced into the training data (100% detection rate on the MultiRC dataset), resulting in an 18.8% regression in model performance — a capability unmatched by any other method. Furthermore, DISCO supports interactive explanations, enabling human inspectors to distinguish spurious causes in the rule-based output. This alleviates the burden of abundant instance-wise explanations and helps assess the model’s risk when encountering out-of-distribution (OOD) data.

arxiv情報

著者 Zijian Zhang,Vinay Setty,Yumeng Wang,Avishek Anand
発行日 2024-11-07 12:12:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.3 パーマリンク