DISCERN: Decoding Systematic Errors in Natural Language for Text Classifiers

要約

高い予測精度にもかかわらず、現在の機械学習システムは、アノテーションのアーティファクトやデータセット内の特定のクラスのサポートが不十分であることに起因する系統的なバイアスを示すことがよくあります。
最近の研究では、キーワードを使用して体系的なバイアスを特定し説明するための自動的な方法が提案されています。
言語説明を使用してテキスト分類器の系統的バイアスを解釈するためのフレームワークである DISCERN を紹介します。
DISCERN は、2 つの大規模な言語モデル間で対話型ループを使用することにより、系統的エラーの正確な自然言語記述を繰り返し生成します。
最後に、説明を使用して、アクティブ ラーニングを介して、合成的に生成されたインスタンスまたは注釈付きの例で分類器トレーニング セットを強化することにより、分類器を改善します。
3 つのテキスト分類データセットについて、私たちのフレームワークによる言語説明が、体系的なバイアスの例で達成可能なレベルを超える一貫したパフォーマンスの向上を引き起こすことを実証しました。
最後に、人間による評価では、クラスターの見本ではなく言語説明を通じて説明された場合に、ユーザーが体系的なバイアスをより効果的に (相対的に 25% 以上) 効率的に解釈できることを示します。

要約(オリジナル)

Despite their high predictive accuracies, current machine learning systems often exhibit systematic biases stemming from annotation artifacts or insufficient support for certain classes in the dataset. Recent work proposes automatic methods for identifying and explaining systematic biases using keywords. We introduce DISCERN, a framework for interpreting systematic biases in text classifiers using language explanations. DISCERN iteratively generates precise natural language descriptions of systematic errors by employing an interactive loop between two large language models. Finally, we use the descriptions to improve classifiers by augmenting classifier training sets with synthetically generated instances or annotated examples via active learning. On three text-classification datasets, we demonstrate that language explanations from our framework induce consistent performance improvements that go beyond what is achievable with exemplars of systematic bias. Finally, in human evaluations, we show that users can interpret systematic biases more effectively (by over 25% relative) and efficiently when described through language explanations as opposed to cluster exemplars.

arxiv情報

著者 Rakesh R. Menon,Shashank Srivastava
発行日 2024-10-29 17:04:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク