Toxicity Detection is NOT all you Need: Measuring the Gaps to Supporting Volunteer Content Moderators

要約

コンテンツモデレーションの自動化アプローチにおける広範な取り組みは、モデレーターの負担を軽減することを目的として、有害、攻撃的、憎悪に満ちたコンテンツを特定するモデルの開発に焦点を当ててきました。
しかし、これらのタスクの改善によって、モデレーターが仕事を遂行する際のニーズに本当に応えられたかどうかは依然として不透明です。
この論文では、さまざまなモデレーション ルールの違反の特定に関して、コンテンツ モデレーションの側面を自動化することを目的とした過去の研究活動とボランティアのコンテンツ モデレーターのニーズとの間のギャップを明らかにします。
そのために、私たちは Hugging Face のモデル レビューを実施し、3 つの模範フォーラムからのさまざまなモデレーション ルールとガイドラインをカバーするモデルの利用可能性を明らかにします。
さらに、最先端の LLM をテストし、特定のフォーラムからのプラットフォーム ルール違反のフラグを立てる際にこれらのモデルがどの程度うまく機能するかを評価しました。
最後に、ボランティアのモデレーターとユーザー調査を実施し、有用なモデレーター モデルに関する彼らの見解を洞察します。
全体として、不足している開発モデルと LLM がルールの重要な部分で中程度から低いパフォーマンスを示しているため、重大なギャップが観察されます。
モデレーターのレポートは、モデレーター アシスタント モデルの開発に関する将来の作業のためのガイドを提供します。

要約(オリジナル)

Extensive efforts in automated approaches for content moderation have been focused on developing models to identify toxic, offensive, and hateful content with the aim of lightening the load for moderators. Yet, it remains uncertain whether improvements on those tasks have truly addressed moderators’ needs in accomplishing their work. In this paper, we surface gaps between past research efforts that have aimed to provide automation for aspects of content moderation and the needs of volunteer content moderators, regarding identifying violations of various moderation rules. To do so, we conduct a model review on Hugging Face to reveal the availability of models to cover various moderation rules and guidelines from three exemplar forums. We further put state-of-the-art LLMs to the test, evaluating how well these models perform in flagging violations of platform rules from one particular forum. Finally, we conduct a user survey study with volunteer moderators to gain insight into their perspectives on useful moderation models. Overall, we observe a non-trivial gap, as missing developed models and LLMs exhibit moderate to low performance on a significant portion of the rules. Moderators’ reports provide guides for future work on developing moderation assistant models.

arxiv情報

著者 Yang Trista Cao,Lovely-Frances Domingo,Sarah Ann Gilbert,Michelle Mazurek,Katie Shilton,Hal Daumé III
発行日 2024-10-21 16:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク