要約
オンラインでの暴言の使用は、個人と社会の両方に損害を与えるますます蔓延した問題となっており、その影響は精神的な危害から現実生活での暴力、さらには死に至るまで多岐にわたります。
機械学習モデルは、暴言を自動的に検出するために開発されていますが、これらのモデルは、時間の経過とともにトピック、言語使用、社会規範が変化する現象である時間的バイアスの影響を受ける可能性があります。
この研究は、さまざまな言語にわたる暴言検出における時間的バイアスの性質と影響を調査し、緩和方法を検討することを目的としています。
さまざまな期間の不正なデータセットに対するモデルのパフォーマンスを評価します。
私たちの結果は、時間の経過とともにパフォーマンスが大幅に低下する履歴データに基づいてトレーニングされたモデルで、時間的バイアスが暴言検出にとって大きな課題であることを示しています。
また、言語の進化とパフォーマンスの低下の理由を探ることを目的として、通時的な観点からこれらの虐待的なデータセットの広範な言語分析を提示します。
この研究は、言語間での暴言検出における時間的バイアスという広範な問題に光を当て、言語の進化と時間的バイアスの軽減についての重要な洞察を提供します。
要約(オリジナル)
The use of abusive language online has become an increasingly pervasive problem that damages both individuals and society, with effects ranging from psychological harm right through to escalation to real-life violence and even death. Machine learning models have been developed to automatically detect abusive language, but these models can suffer from temporal bias, the phenomenon in which topics, language use or social norms change over time. This study aims to investigate the nature and impact of temporal bias in abusive language detection across various languages and explore mitigation methods. We evaluate the performance of models on abusive data sets from different time periods. Our results demonstrate that temporal bias is a significant challenge for abusive language detection, with models trained on historical data showing a significant drop in performance over time. We also present an extensive linguistic analysis of these abusive data sets from a diachronic perspective, aiming to explore the reasons for language evolution and performance decline. This study sheds light on the pervasive issue of temporal bias in abusive language detection across languages, offering crucial insights into language evolution and temporal bias mitigation.
arxiv情報
著者 | Mali Jin,Yida Mu,Diana Maynard,Kalina Bontcheva |
発行日 | 2023-09-25 13:59:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google