要約
自動化されたカウンターナラティブ(CN)は、オンラインヘイトスピーチを緩和するための有望な戦略を提供しますが、感情的なトーン、アクセシビリティ、倫理的リスクに関する懸念は残っています。
ペルソナフレーミング、冗長性と読みやすさ、感情的なトーン、倫理的堅牢性の4つの次元にわたって、大規模な言語モデル(LLM)によって生成されたCNSを評価するためのフレームワークを提案します。
CohereのCommandR-7B、およびMetaのLlama 3.1-70B、GPT-4O-MINIを使用して、MT-CONANおよびHateValデータセットで3つのプロンプト戦略を評価します。
私たちの調査結果は、LLM生成されたCNSがしばしば冗長であり、大学レベルのリテラシーを持つ人々に適応し、アクセシビリティを制限することを明らかにしています。
感情的にガイドされたプロンプトは、より共感的で読みやすい反応をもたらしますが、安全性と有効性を取り巻く懸念が残っています。
要約(オリジナル)
Automated counter-narratives (CN) offer a promising strategy for mitigating online hate speech, yet concerns about their affective tone, accessibility, and ethical risks remain. We propose a framework for evaluating Large Language Model (LLM)-generated CNs across four dimensions: persona framing, verbosity and readability, affective tone, and ethical robustness. Using GPT-4o-Mini, Cohere’s CommandR-7B, and Meta’s LLaMA 3.1-70B, we assess three prompting strategies on the MT-Conan and HatEval datasets. Our findings reveal that LLM-generated CNs are often verbose and adapted for people with college-level literacy, limiting their accessibility. While emotionally guided prompts yield more empathetic and readable responses, there remain concerns surrounding safety and effectiveness.
arxiv情報
著者 | Mikel K. Ngueajio,Flor Miriam Plaza-del-Arco,Yi-Ling Chung,Danda B. Rawat,Amanda Cercas Curry |
発行日 | 2025-06-04 15:09:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google