Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales

要約

ソーシャル メディア プラットフォームは、ユーザーが対人で議論したり意見を表明したりするための優れた場ですが、ソーシャル メディアが提供する見せかけと匿名性により、ユーザーがヘイト スピーチや攻撃的なコンテンツを吐き出す可能性があります。
このようなプラットフォームが大規模であることを考えると、ヘイトスピーチの事例を自動的に特定してフラグを立てる必要性が生じます。
ヘイトスピーチ検出方法はいくつか存在しますが、これらのブラックボックス方法のほとんどは、設計上解釈可能または説明可能ではありません。
解釈可能性の欠如に対処するために、この論文では、最先端の大規模言語モデル (LLM) を使用して入力テキストから根拠の形で特徴を抽出し、基本的なヘイトスピーチ分類器をトレーニングすることを提案します。
設計により忠実な解釈が可能になります。
私たちのフレームワークは、LLM のテキスト理解機能と最先端のヘイトスピーチ分類器の識別力を効果的に組み合わせて、これらの分類器を忠実に解釈可能にします。
さまざまな英語のソーシャル メディア ヘイト スピーチ データセットに対する私たちの包括的な評価では、(1) LLM によって抽出された根拠の良さ、および (2) 解釈可能性を確保するためのトレーニング後でも検出器のパフォーマンスが驚くほど維持されていることを実証しています。
すべてのコードとデータは https://github.com/AmritaBh/shield で利用可能になります。

要約(オリジナル)

Although social media platforms are a prominent arena for users to engage in interpersonal discussions and express opinions, the facade and anonymity offered by social media may allow users to spew hate speech and offensive content. Given the massive scale of such platforms, there arises a need to automatically identify and flag instances of hate speech. Although several hate speech detection methods exist, most of these black-box methods are not interpretable or explainable by design. To address the lack of interpretability, in this paper, we propose to use state-of-the-art Large Language Models (LLMs) to extract features in the form of rationales from the input text, to train a base hate speech classifier, thereby enabling faithful interpretability by design. Our framework effectively combines the textual understanding capabilities of LLMs and the discriminative power of state-of-the-art hate speech classifiers to make these classifiers faithfully interpretable. Our comprehensive evaluation on a variety of English language social media hate speech datasets demonstrate: (1) the goodness of the LLM-extracted rationales, and (2) the surprising retention of detector performance even after training to ensure interpretability. All code and data will be made available at https://github.com/AmritaBh/shield.

arxiv情報

著者 Ayushi Nirmal,Amrita Bhattacharjee,Paras Sheth,Huan Liu
発行日 2024-05-08 02:47:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク