要約
counterspeechは、オンラインでヘイトスピーチと戦うための強力なツールであることが証明されています。
以前の研究では、特定の意図のみを条件付けられたカウンタースピーチの生成に焦点を当ててきました(単一の属性)。
ただし、複数の属性を同時に考慮した全体的なアプローチは、より微妙で効果的な応答をもたらす可能性があります。
ここでは、優先最適化を備えたHipproの階層的プレフィックス学習を紹介します。これは、第1フェーズのカウンタースピーチ生成プロセス中に階層的に最適化された属性固有のプレフィックスエンミングスペースの有効性を利用する新しい2段階のフレームワークです。
その後、参照と報酬のない好みの両方の最適化の両方を組み込んで、より建設的なカウンタースピーチを生成します。
さらに、5つのアノテーターによる感情ラベルの13,973のすべてのカウンタースピーチインスタンスに注釈を付けることにより、IntentConanv2を拡張します。
Hipproは、階層的なプレフィックス最適化を活用して、これらのデュアル属性を効果的に統合します。
広範な評価は、Hipproがいくつかのベースラインモデルと比較して、それぞれRouge-1、Rouge-2、およびRouge-Lの3%、〜2%、〜3%の改善をそれぞれ38%改善し、それぞれ38%の改善を達成することを示しています。
人間の評価は、私たちのアプローチの優位性をさらに実証し、生成されたカウンタースピーチの関連性と適切性の強化を強調しています。
この作業は、counterspeech生成システムの有効性を進める際の多属性条件付けの可能性を強調しています。
要約(オリジナル)
Counterspeech has proven to be a powerful tool to combat hate speech online. Previous studies have focused on generating counterspeech conditioned only on specific intents (single attributed). However, a holistic approach considering multiple attributes simultaneously can yield more nuanced and effective responses. Here, we introduce HiPPrO, Hierarchical Prefix learning with Preference Optimization, a novel two-stage framework that utilizes the effectiveness of attribute-specific prefix embedding spaces hierarchically optimized during the counterspeech generation process in the first phase. Thereafter, we incorporate both reference and reward-free preference optimization to generate more constructive counterspeech. Furthermore, we extend IntentCONANv2 by annotating all 13,973 counterspeech instances with emotion labels by five annotators. HiPPrO leverages hierarchical prefix optimization to integrate these dual attributes effectively. An extensive evaluation demonstrates that HiPPrO achieves a ~38 % improvement in intent conformity and a ~3 %, ~2 %, ~3 % improvement in Rouge-1, Rouge-2, and Rouge-L, respectively, compared to several baseline models. Human evaluations further substantiate the superiority of our approach, highlighting the enhanced relevance and appropriateness of the generated counterspeech. This work underscores the potential of multi-attribute conditioning in advancing the efficacy of counterspeech generation systems.
arxiv情報
著者 | Aswini Kumar Padhi,Anil Bandhakavi,Tanmoy Chakraborty |
発行日 | 2025-05-20 16:27:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google