要約
counterspeechは、有害なオンラインコンテンツに対する重要な戦略ですが、専門家主導の努力のスケーリングは困難です。
大規模な言語モデル(LLMS)は潜在的な解決策を提示しますが、陰謀理論に対抗するのに使用されていません。
ヘイトスピーチとは異なり、陰謀理論のコメントと専門家で作られたcounterspeechとペアリングするデータセットは存在しません。
GPT-4O、Llama 3、およびMistralの能力を評価して、構造化されたプロンプトを通じて提供された心理研究から派生したカウンタースクイー戦略を効果的に適用することにより、このギャップに対処します。
私たちの結果は、モデルがしばしば一般的な、繰り返し、または表面的な結果を生成することを示しています。
さらに、彼らは恐怖を延ばし、頻繁に事実、情報源、または数字を幻覚させ、実際のアプリケーションでの迅速な使用を問題にします。
要約(オリジナル)
Counterspeech is a key strategy against harmful online content, but scaling expert-driven efforts is challenging. Large Language Models (LLMs) present a potential solution, though their use in countering conspiracy theories is under-researched. Unlike for hate speech, no datasets exist that pair conspiracy theory comments with expert-crafted counterspeech. We address this gap by evaluating the ability of GPT-4o, Llama 3, and Mistral to effectively apply counterspeech strategies derived from psychological research provided through structured prompts. Our results show that the models often generate generic, repetitive, or superficial results. Additionally, they over-acknowledge fear and frequently hallucinate facts, sources, or figures, making their prompt-based use in practical applications problematic.
arxiv情報
著者 | Mareike Lisker,Christina Gottschalk,Helena Mihaljević |
発行日 | 2025-04-23 10:32:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google