Watch Your Language: Large Language Models and Content Moderation

要約

大規模言語モデル (LLM) は、さまざまな自然言語タスクを実行できるため、爆発的に人気が高まっています。
テキストベースのコンテンツモデレーションは、最近熱狂的な注目を集めている LLM ユースケースの 1 つですが、コンテンツモデレーション設定で LLM がどのように機能するかを調査した研究はほとんどありません。
この作業では、ルールベースのコミュニティ モデレーションと有害なコンテンツの検出という 2 つの一般的なコンテンツ モデレーション タスクに関して、最新の商用 LLM (GPT-3、GPT-3.5、GPT-4) スイートを評価します。
ルールベースのコミュニティモデレーションでは、95 の Reddit サブコミュニティからのルールを使用して 95 の LLM モデレーション エンジンを構築しました。その結果、LLM は多くのコミュニティのルールベースのモデレーションに効果的であり、精度中央値 64%、精度中央値 83 を達成できることがわかりました。
%。
毒性検出に関しては、LLM が既存の市販の毒性分類器よりも大幅に優れていることがわかりました。
しかし、最近のモデルサイズの増加は毒性検出にわずかな利点しか追加していないこともわかり、毒性検出タスクにおける LLM のパフォーマンスが頭打ちになる可能性があることを示唆しています。
最後に、LLM とコンテンツ モデレーションの研究における将来の取り組みの道筋を概説します。

要約(オリジナル)

Large language models (LLMs) have exploded in popularity due to their ability to perform a wide array of natural language tasks. Text-based content moderation is one LLM use case that has received recent enthusiasm, however, there is little research investigating how LLMs perform in content moderation settings. In this work, we evaluate a suite of modern, commercial LLMs (GPT-3, GPT-3.5, GPT-4) on two common content moderation tasks: rule-based community moderation and toxic content detection. For rule-based community moderation, we construct 95 LLM moderation-engines prompted with rules from 95 Reddit subcommunities and find that LLMs can be effective at rule-based moderation for many communities, achieving a median accuracy of 64% and a median precision of 83%. For toxicity detection, we find that LLMs significantly outperform existing commercially available toxicity classifiers. However, we also find that recent increases in model size add only marginal benefit to toxicity detection, suggesting a potential performance plateau for LLMs on toxicity detection tasks. We conclude by outlining avenues for future work in studying LLMs and content moderation.

arxiv情報

著者 Deepak Kumar,Yousef AbuHashem,Zakir Durumeric
発行日 2023-09-25 20:23:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.HC, cs.SI パーマリンク