CSEval: Towards Automated, Multi-Dimensional, and Reference-Free Counterspeech Evaluation using Auto-Calibrated LLMs

要約

counterspeechは、オンラインヘイトスピーチに対抗するための効果的なアプローチとして人気があり、言語モデルを使用した自動化されたcounterspeech生成の研究関心の高まりにつながります。
ただし、このフィールドには、標準化された評価プロトコルと、人間の判断と一致する堅牢な自動評価メトリックがありません。
主に類似性メトリックに基づいた現在の自動評価方法は、コンテキストの関連性、攻撃性、または議論的な一貫性など、カウンタースパーツの品質の複雑で独立した属性を効果的にキャプチャしません。
これにより、自動化された反スピーチ生成方法を評価するために、労働集約的な人間の評価への依存度が高まりました。
これらの課題に対処するために、CSEVALは、コンテキスト関連、攻撃性、議論の共同特性、および適切性の4つの次元にわたって、カウンタースピーチの品質を評価するための新しいデータセットとフレームワークを紹介します。
さらに、大規模な言語モデルを使用してカウンタースピーチをスコアリングするための自動調整チェーン(COT)を使用したプロンプトベースの方法である、counterspeech評価(ACE)のための自動較正COTを提案します。
私たちの実験は、ACEが人間の判断と相関するRouge、Meteor、Bertscoreなどの伝統的な指標を上回り、自動化されたcounterspeech評価の重要な進歩を示していることを示しています。

要約(オリジナル)

Counterspeech has been popular as an effective approach to counter online hate speech, leading to increasing research interest in automated counterspeech generation using language models. However, this field lacks standardised evaluation protocols and robust automated evaluation metrics that align with human judgement. Current automatic evaluation methods, primarily based on similarity metrics, do not effectively capture the complex and independent attributes of counterspeech quality, such as contextual relevance, aggressiveness, or argumentative coherence. This has led to an increased dependency on labor-intensive human evaluations to assess automated counter-speech generation methods. To address these challenges, we introduce CSEval, a novel dataset and framework for evaluating counterspeech quality across four dimensions: contextual-relevance, aggressiveness, argument-coherence, and suitableness. Furthermore, we propose Auto-Calibrated COT for Counterspeech Evaluation (ACE), a prompt-based method with auto-calibrated chain-of-thoughts (CoT) for scoring counterspeech using large language models. Our experiments show that ACE outperforms traditional metrics like ROUGE, METEOR, and BertScore in correlating with human judgement, indicating a significant advancement in automated counterspeech evaluation.

arxiv情報

著者 Amey Hengle,Aswini Kumar,Anil Bandhakavi,Tanmoy Chakraborty
発行日 2025-01-29 11:38:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.SI パーマリンク