Evaluating GPT-3 Generated Explanations for Hateful Content Moderation

要約

最近の研究は、大規模言語モデル (LLM) を使用して、微調整やプロンプトを通じてヘイトスピーチの説明を生成することに焦点を当てています。
この分野への関心が高まっているにもかかわらず、これらの生成された説明の有効性と潜在的な限界は依然としてよく理解されていません。
主な懸念は、LLM によって生成されたこれらの説明が、ユーザーとコンテンツモデレーターの両方によるフラグ付きコンテンツの性質についての誤った判断につながる可能性があることです。
たとえば、LLM が生成した説明によって、コンテンツ モデレータは、無害なコンテンツが憎悪に満ちたものであると不正確に納得してしまう可能性があります。
これを踏まえて、我々はヘイトスピーチの説明を検討するための分析枠組みを提案し、そのような説明の評価に関する広範な調査を実施した。
具体的には、GPT-3 にヘイトコンテンツと非ヘイトコンテンツの両方の説明を生成させ、生成された説明を評価するために 2,400 人の回答者を対象にアンケートを実施しました。
私たちの調査結果は、(1) 人間の評価者は、言語の流暢さ、有益性、説得力、論理的健全性の点で GPT で生成された説明を高品質であると評価した、(2) ただし、これらの説明の説得力の性質は、促す戦略によって異なることを明らかにしました。
(3) この説得力により、コンテンツの嫌悪感について誤った判断が行われる可能性があります。
私たちの研究は、LLM によって生成された説明をコンテンツモデレーションに適用する際には注意が必要であることを強調しています。
コードと結果は https://github.com/Social-AI-Studio/GPT3-HateEval で入手できます。

要約(オリジナル)

Recent research has focused on using large language models (LLMs) to generate explanations for hate speech through fine-tuning or prompting. Despite the growing interest in this area, these generated explanations’ effectiveness and potential limitations remain poorly understood. A key concern is that these explanations, generated by LLMs, may lead to erroneous judgments about the nature of flagged content by both users and content moderators. For instance, an LLM-generated explanation might inaccurately convince a content moderator that a benign piece of content is hateful. In light of this, we propose an analytical framework for examining hate speech explanations and conducted an extensive survey on evaluating such explanations. Specifically, we prompted GPT-3 to generate explanations for both hateful and non-hateful content, and a survey was conducted with 2,400 unique respondents to evaluate the generated explanations. Our findings reveal that (1) human evaluators rated the GPT-generated explanations as high quality in terms of linguistic fluency, informativeness, persuasiveness, and logical soundness, (2) the persuasive nature of these explanations, however, varied depending on the prompting strategy employed, and (3) this persuasiveness may result in incorrect judgments about the hatefulness of the content. Our study underscores the need for caution in applying LLM-generated explanations for content moderation. Code and results are available at https://github.com/Social-AI-Studio/GPT3-HateEval.

arxiv情報

著者 Han Wang,Ming Shan Hee,Md Rabiul Awal,Kenny Tsu Wei Choo,Roy Ka-Wei Lee
発行日 2023-06-20 10:25:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク