HEARTS: A Holistic Framework for Explainable, Sustainable and Robust Text Stereotype Detection

要約

ステレオタイプは社会グループに関する一般化された仮定であり、コンテキスト内学習を使用する最先端の LLM でさえ、ステレオタイプを正確に識別するのに苦労しています。
ステレオタイプは主観的な性質を持っており、何がステレオタイプを構成するかは文化的、社会的、個人的な観点によって大きく異なる可能性があるため、確実な説明可能性が極めて重要です。
説明可能なモデルにより、これらの微妙な判断を人間のユーザーが理解して検証できるようになり、信頼と説明責任が促進されます。
私たちは、モデルのパフォーマンスを向上させ、二酸化炭素排出量を最小限に抑え、透過的で解釈可能な説明を提供するフレームワークである HEARTS (説明可能で持続可能で堅牢なテキスト ステレオタイプ検出のためのホリスティック フレームワーク) を導入することで、これらの課題に対処します。
私たちは、LGBTQ+ など過小評価されている人口統計や地域のステレオタイプを含む、6 つのグループにわたる 57,201 のラベル付きテキストで構成される拡張マルチグレイン ステレオタイプ データセット (EMGSD) を確立します。
アブレーション研究では、EMGSD で微調整された BERT モデルが、個々のコンポーネントでトレーニングされた BERT モデルよりも優れたパフォーマンスを発揮することが確認されています。
次に、SHAP を使用して微調整された炭素効率の高い ALBERT-V2 モデルを分析し、人間の理解との整合性を確保しながらトークンレベルの重要度値を生成し、SHAP と LIME の出力を比較することで説明可能性の信頼スコアを計算します。

要約(オリジナル)

Stereotypes are generalised assumptions about societal groups, and even state-of-the-art LLMs using in-context learning struggle to identify them accurately. Due to the subjective nature of stereotypes, where what constitutes a stereotype can vary widely depending on cultural, social, and individual perspectives, robust explainability is crucial. Explainable models ensure that these nuanced judgments can be understood and validated by human users, promoting trust and accountability. We address these challenges by introducing HEARTS (Holistic Framework for Explainable, Sustainable, and Robust Text Stereotype Detection), a framework that enhances model performance, minimises carbon footprint, and provides transparent, interpretable explanations. We establish the Expanded Multi-Grain Stereotype Dataset (EMGSD), comprising 57,201 labelled texts across six groups, including under-represented demographics like LGBTQ+ and regional stereotypes. Ablation studies confirm that BERT models fine-tuned on EMGSD outperform those trained on individual components. We then analyse a fine-tuned, carbon-efficient ALBERT-V2 model using SHAP to generate token-level importance values, ensuring alignment with human understanding, and calculate explainability confidence scores by comparing SHAP and LIME outputs…

arxiv情報

著者 Theo King,Zekun Wu,Adriano Koshiyama,Emre Kazim,Philip Treleaven
発行日 2024-11-19 16:39:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク