Think Like a Person Before Responding: A Multi-Faceted Evaluation of Persona-Guided LLMs for Countering Hate

要約

自動化されたカウンターナラティブ(CN)は、オンラインヘイトスピーチを緩和するための有望な戦略を提供しますが、感情的なトーン、アクセシビリティ、倫理的リスクに関する懸念は残っています。
ペルソナフレーミング、冗長性と読みやすさ、感情的なトーン、倫理的堅牢性の4つの次元にわたって、大規模な言語モデル(LLM)によって生成されたCNSを評価するためのフレームワークを提案します。
CohereのCommandR-7B、およびMetaのLlama 3.1-70B、GPT-4O-MINIを使用して、MT-CONANおよびHateValデータセットで3つのプロンプト戦略を評価します。
私たちの調査結果は、LLM生成されたCNSがしばしば冗長であり、大学レベルのリテラシーを持つ人々に適応し、アクセシビリティを制限することを明らかにしています。
感情的にガイドされたプロンプトは、より共感的で読みやすい反応をもたらしますが、安全性と有効性を取り巻く懸念が残っています。

要約(オリジナル)

Automated counter-narratives (CN) offer a promising strategy for mitigating online hate speech, yet concerns about their affective tone, accessibility, and ethical risks remain. We propose a framework for evaluating Large Language Model (LLM)-generated CNs across four dimensions: persona framing, verbosity and readability, affective tone, and ethical robustness. Using GPT-4o-Mini, Cohere’s CommandR-7B, and Meta’s LLaMA 3.1-70B, we assess three prompting strategies on the MT-Conan and HatEval datasets. Our findings reveal that LLM-generated CNs are often verbose and adapted for people with college-level literacy, limiting their accessibility. While emotionally guided prompts yield more empathetic and readable responses, there remain concerns surrounding safety and effectiveness.

arxiv情報

著者 Mikel K. Ngueajio,Flor Miriam Plaza-del-Arco,Yi-Ling Chung,Danda B. Rawat,Amanda Cercas Curry
発行日 2025-06-04 15:09:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG パーマリンク