‘HOT’ ChatGPT: The promise of ChatGPT in detecting and discriminating hateful, offensive, and toxic comments on social media

要約

タイトル:炎上コンテンツの検出と区別におけるChatGPTの可能性:Hateful、Offensive、Toxicなコメントのソーシャルメディアにおける検出能力についての研究

要約:
– ソーシャルメディアには有害なコンテンツが蔓延しており、参加度に悪影響を与えている。
– この問題に対処するための一般的な方法は、人間の注釈に依存する検出モデルを開発すること。
– しかし、このようなモデルを構築するために必要なタスクは、注釈者を有害で攻撃的なコンテンツにさらし、大きな時間やコストが必要となる場合がある。
– 生成型AIモデルは、有害なコンテンツを理解し、検出する可能性がある。
– この可能性を調査するために、ChatGPTを使用し、Hateful、Offensive、Toxic(HOT)という有害コンテンツに関する3つの頻繁に議論される概念について、MTurker注釈とのパフォーマンスを比較した。
– ChatGPTと対話するための5つのプロンプトを設計し、HOT分類を引き出す4つの実験を実施した。
– 結果は、ChatGPTがMTurker注釈と比較して約80%の精度を達成できることを示している。
– 具体的には、非HOTコメントの分類に関してはMTurker注釈よりもChatGPTの方がより一貫性がある。
– また、ChatGPTの分類は提供されたHOTの定義に沿っていることも示しているが、「hateful」と「offensive」は「toxic」のサブセットとして分類される。
– さらに、ChatGPTと対話するために選択したプロンプトの選択は、パフォーマンスに影響を与える。
– この研究の知見に基づき、ChatGPTを使用してHOTコンテンツを検出するためのいくつかの重要な示唆が提供される。特に、パフォーマンスの信頼性と一貫性、HOTの概念の理解と推論の方法、プロンプトがパフォーマンスに与える影響について。
– 全体的に、この研究は、生成型AIモデルを使用してソーシャルメディア上の大量のユーザー生成コンテンツを調整する可能性に関する指針を提供している。

要約(オリジナル)

Harmful content is pervasive on social media, poisoning online communities and negatively impacting participation. A common approach to address this issue is to develop detection models that rely on human annotations. However, the tasks required to build such models expose annotators to harmful and offensive content and may require significant time and cost to complete. Generative AI models have the potential to understand and detect harmful content. To investigate this potential, we used ChatGPT and compared its performance with MTurker annotations for three frequently discussed concepts related to harmful content: Hateful, Offensive, and Toxic (HOT). We designed five prompts to interact with ChatGPT and conducted four experiments eliciting HOT classifications. Our results show that ChatGPT can achieve an accuracy of approximately 80% when compared to MTurker annotations. Specifically, the model displays a more consistent classification for non-HOT comments than HOT comments compared to human annotations. Our findings also suggest that ChatGPT classifications align with provided HOT definitions, but ChatGPT classifies ‘hateful’ and ‘offensive’ as subsets of ‘toxic.’ Moreover, the choice of prompts used to interact with ChatGPT impacts its performance. Based on these in-sights, our study provides several meaningful implications for employing ChatGPT to detect HOT content, particularly regarding the reliability and consistency of its performance, its understand-ing and reasoning of the HOT concept, and the impact of prompts on its performance. Overall, our study provides guidance about the potential of using generative AI models to moderate large volumes of user-generated content on social media.

arxiv情報

著者 Lingyao Li,Lizhou Fan,Shubham Atreja,Libby Hemphill
発行日 2023-04-20 19:40:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク