A Multi-Aspect Framework for Counter Narrative Evaluation using Large Language Models

要約

カウンターナラティブ、つまりヘイトスピーチに反論し、衝突を和らげることを目的とした、ヘイトスピーチの文脈に対する情報に基づいた対応は、効果的なヘイトスピーチ介入戦略として浮上しています。
これまでの研究では、手動による介入を支援するための自動的なカウンターナラティブ生成方法が提案されてきましたが、これらのアプローチの評価は未開発のままです。
反物語の評価のためのこれまでの自動測定基準は、評価基準として反物語の品質の重要な側面を組み込むのではなく、表面的な参照比較に依存しているため、人間の判断との整合性が欠けています。
事前の評価の限界に対処するために、我々は、反論専門の NGO からのガイドラインから導き出された 5 つの定義された側面を使用して、生成された反論候補者に対してスコアとフィードバックを提供するよう LLM に促す新しい評価フレームワークを提案します。
私たちは、LLM 評価者が人間による注釈付きのスコアとフィードバックとの強力な整合性を達成し、代替指標を上回るパフォーマンスを示していることを発見しました。これは、LLM 評価者が、反物語的評価における多面的で参照不要の解釈可能な評価者としての可能性を示しています。

要約(オリジナル)

Counter narratives – informed responses to hate speech contexts designed to refute hateful claims and de-escalate encounters – have emerged as an effective hate speech intervention strategy. While previous work has proposed automatic counter narrative generation methods to aid manual interventions, the evaluation of these approaches remains underdeveloped. Previous automatic metrics for counter narrative evaluation lack alignment with human judgment as they rely on superficial reference comparisons instead of incorporating key aspects of counter narrative quality as evaluation criteria. To address prior evaluation limitations, we propose a novel evaluation framework prompting LLMs to provide scores and feedback for generated counter narrative candidates using 5 defined aspects derived from guidelines from counter narrative specialized NGOs. We found that LLM evaluators achieve strong alignment to human-annotated scores and feedback and outperform alternative metrics, indicating their potential as multi-aspect, reference-free and interpretable evaluators for counter narrative evaluation.

arxiv情報

著者 Jaylen Jones,Lingbo Mo,Eric Fosler-Lussier,Huan Sun
発行日 2024-03-29 15:01:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク