Vicarious Offense and Noise Audit of Offensive Speech Classifiers: Unifying Human and Machine Disagreement on What is Offensive

要約

不快な音声の検出は、コンテンツモデレーションの重要な要素です。
ただし、何が攻撃的であるかは非常に主観的なものになる可能性があります。
この論文では、現実世界のソーシャル ウェブの政治的議論に関して、何が攻撃的であるかについて、機械のモデレーターと人間のモデレーターがどのように意見を異にするかを調査します。
我々は、(1) モデレーター (人間と機械) の間に大きな意見の相違があることを示します。
(2) 人間および大規模言語モデルの分類子は、他の人間の評価者が政治的傾向に基づいてどのように反応するかを予測できません。
(1)については、機械と人間の両方の対応を組み合わせた、これまでにない規模の騒音監査を実施します。
(2) では、代償犯罪に関するこれまでに例のないデータセットを導入します。
私たちのノイズ監査により、モデレーションの結果はマシンのモデレータによって大きく異なることが明らかになりました。
人間のモデレーターを使った私たちの実験では、政治的傾向とデリケートな問題が組み合わさって、一人称攻撃と代理攻撃の両方に影響を与えることが示唆されています。
データセットは https://github.com/Homan-Lab/voiced から入手できます。

要約(オリジナル)

Offensive speech detection is a key component of content moderation. However, what is offensive can be highly subjective. This paper investigates how machine and human moderators disagree on what is offensive when it comes to real-world social web political discourse. We show that (1) there is extensive disagreement among the moderators (humans and machines); and (2) human and large-language-model classifiers are unable to predict how other human raters will respond, based on their political leanings. For (1), we conduct a noise audit at an unprecedented scale that combines both machine and human responses. For (2), we introduce a first-of-its-kind dataset of vicarious offense. Our noise audit reveals that moderation outcomes vary wildly across different machine moderators. Our experiments with human moderators suggest that political leanings combined with sensitive issues affect both first-person and vicarious offense. The dataset is available through https://github.com/Homan-Lab/voiced.

arxiv情報

著者 Tharindu Cyril Weerasooriya,Sujan Dutta,Tharindu Ranasinghe,Marcos Zampieri,Christopher M. Homan,Ashiqur R. KhudaBukhsh
発行日 2023-11-09 13:46:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク