要約
悪口は、ネットいじめ事件に関するデータセットを収集するための一般的な手段です。
私たちの焦点は、そのようなデータ収集戦略の結果として発生する悪口と事件との間の誤った関連付けから生じるバイアスを測定し、軽減することにあります。
これらのバイアスを実証して定量化した後、モデル全体のパフォーマンスに影響を与えることなく、バイアスを誘発する単語に対するモデルの注意を軽減することを目的とした、敵対的トレーニング、バイアス制約、およびデバイアス微調整アプローチを組み合わせた初のデータ独立型バイアス除去手法である ID-XCB を紹介します。
私たちは、包括的なアブレーションおよび一般化研究とともに、2 つの人気のあるセッションベースのネットいじめデータセットに関する ID-XCB を調査します。
ID-XCB がバイアスを軽減しながら堅牢なネットいじめ検出機能を学習し、パフォーマンスとバイアス軽減の両方で最先端のバイアス除去手法を上回るパフォーマンスを示すことを示します。
私たちの定量的および定性的分析は、目に見えないデータに対する一般化可能性を示しています。
要約(オリジナル)
Swear words are a common proxy to collect datasets with cyberbullying incidents. Our focus is on measuring and mitigating biases derived from spurious associations between swear words and incidents occurring as a result of such data collection strategies. After demonstrating and quantifying these biases, we introduce ID-XCB, the first data-independent debiasing technique that combines adversarial training, bias constraints and debias fine-tuning approach aimed at alleviating model attention to bias-inducing words without impacting overall model performance. We explore ID-XCB on two popular session-based cyberbullying datasets along with comprehensive ablation and generalisation studies. We show that ID-XCB learns robust cyberbullying detection capabilities while mitigating biases, outperforming state-of-the-art debiasing methods in both performance and bias mitigation. Our quantitative and qualitative analyses demonstrate its generalisability to unseen data.
arxiv情報
著者 | Peiling Yi,Arkaitz Zubiaga |
発行日 | 2024-02-27 12:52:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google