Silencing Empowerment, Allowing Bigotry: Auditing the Moderation of Hate Speech on Twitch

要約

コンテンツモデレートの需要を満たすために、オンラインプラットフォームは自動化されたシステムに頼りました。
Twitchのようなプラットフォームでのリアルタイムエンゲージメントの新しい形式($ \ textit {e.g。} $、ライブストリームについてコメントするユーザー)の新しい形式は、このようなモデレートシステムに期待されるレイテンシに追加の圧力をかけます。
それらの有病率にもかかわらず、これらのシステムの有効性についてはほとんど知られていません。
このホワイトペーパーでは、Twitchの自動モデレーションツール($ \ texttt {automod} $)の監査を実施して、憎悪なコンテンツにフラグを立てることにおけるその効果を調査します。
監査のために、ストリーミングアカウントを作成してサイロ化されたテストベッドとして機能し、TwitchのAPIを使用してライブチャットとのインターフェースを作成して、$ 4 $データセットから照合された107,000ドル以上のコメントを送信します。
$ \ texttt {automod} $の正確さを測定します。
私たちの実験は、一部のデータセットで最大$ 94 \%$の憎悪なメッセージの大部分が$ \ textit {bypass moderation} $であることを明らかにしています。
これらのメッセージへのスラーのコンテキストの追加により、$ 100 \%$の削除が得られ、$ \ texttt {automod} $が節度信号としてのSlursに依存しています。
また、Twitchのコミュニティガイドラインに反して、$ \ texttt {automod} $は、教育学的またはエンパワーメントコンテキストで敏感な単語を使用する良性の例の最大$ 89.5 \%$のブロックをブロックします。
全体として、監査は$ \ texttt {automod} $の機能の大きなギャップを指摘し、そのようなシステムがコンテキストを効果的に理解することの重要性を強調しています。

要約(オリジナル)

To meet the demands of content moderation, online platforms have resorted to automated systems. Newer forms of real-time engagement($\textit{e.g.}$, users commenting on live streams) on platforms like Twitch exert additional pressures on the latency expected of such moderation systems. Despite their prevalence, relatively little is known about the effectiveness of these systems. In this paper, we conduct an audit of Twitch’s automated moderation tool ($\texttt{AutoMod}$) to investigate its effectiveness in flagging hateful content. For our audit, we create streaming accounts to act as siloed test beds, and interface with the live chat using Twitch’s APIs to send over $107,000$ comments collated from $4$ datasets. We measure $\texttt{AutoMod}$’s accuracy in flagging blatantly hateful content containing misogyny, racism, ableism and homophobia. Our experiments reveal that a large fraction of hateful messages, up to $94\%$ on some datasets, $\textit{bypass moderation}$. Contextual addition of slurs to these messages results in $100\%$ removal, revealing $\texttt{AutoMod}$’s reliance on slurs as a moderation signal. We also find that contrary to Twitch’s community guidelines, $\texttt{AutoMod}$ blocks up to $89.5\%$ of benign examples that use sensitive words in pedagogical or empowering contexts. Overall, our audit points to large gaps in $\texttt{AutoMod}$’s capabilities and underscores the importance for such systems to understand context effectively.

arxiv情報

著者 Prarabdh Shukla,Wei Yin Chong,Yash Patel,Brennan Schaffner,Danish Pruthi,Arjun Bhagoji
発行日 2025-06-10 13:22:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.LG パーマリンク