KTCR: Improving Implicit Hate Detection with Knowledge Transfer driven Concept Refinement

要約

新たな社会運動や政治的出来事によって駆動される社会的および政治的文脈の絶え間ない変化は、憎悪の内容と、機械学習モデルが捉えていないかもしれない以前に認識されていなかった憎悪パターンの新しい形態につながります。
いくつかの最近の文献では、新しい暗黙の憎悪パターンを明らかにするサンプルを組み込むことにより、既存の憎悪データセットを豊かにするためのデータ増強ベースの手法を提案しています。
このアプローチは、ドメイン外の暗黙の憎悪インスタンスでのモデルのパフォーマンスを改善することを目的としています。
増強のためにより多くのサンプルをさらに追加すると、モデルの性能が低下することが観察されています。
この作業では、概念のアクティブ化ベクトルに基づいたデータ増強とともに、新しいプロトタイプのアライメントと概念の損失を介して、暗黙の憎悪サンプルに関連する概念を蒸留および改良する知識移転駆動型の概念精製方法を提案します。
いくつかの公開されたデータセットを使用した実験は、概念の改良を通じて新しい憎悪パターンを反映した追加の暗黙的なサンプルを組み込むことで、モデルのパフォーマンスが向上し、クロスダタセット一般化能力を維持しながらベースラインの結果を超えることが示されています。

要約(オリジナル)

The constant shifts in social and political contexts, driven by emerging social movements and political events, lead to new forms of hate content and previously unrecognized hate patterns that machine learning models may not have captured. Some recent literature proposes data augmentation-based techniques to enrich existing hate datasets by incorporating samples that reveal new implicit hate patterns. This approach aims to improve the model’s performance on out-of-domain implicit hate instances. It is observed, that further addition of more samples for augmentation results in the decrease of the performance of the model. In this work, we propose a Knowledge Transfer-driven Concept Refinement method that distills and refines the concepts related to implicit hate samples through novel prototype alignment and concept losses, alongside data augmentation based on concept activation vectors. Experiments with several publicly available datasets show that incorporating additional implicit samples reflecting new hate patterns through concept refinement enhances the model’s performance, surpassing baseline results while maintaining cross-dataset generalization capabilities.

arxiv情報

著者 Samarth Garg,Vivek Hruday Kavuri,Gargi Shroff,Rahul Mishra
発行日 2025-04-01 09:48:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク