Is Safer Better? The Impact of Guardrails on the Argumentative Strength of LLMs in Hate Speech Countering

要約

ヘイトスピーチ緩和戦略としての反論スピーチの潜在的有効性は、NLG研究コミュニティにおいて、特に反論スピーチを自動生成するタスクへの関心が高まっている。しかし、自動生成された反論は、専門家が生成した反論の特徴である議論の豊かさに欠けていることが多い。本研究では、より説得力のある応答を生成するために、相槌生成の2つの側面に注目する。第一に、LLMの有用性と無害性の間の緊張を調査することにより、安全ガードレールの存在が生成の質を妨げるかどうかを検証する。第二に、ヘイトスピーチの特定の構成要素を攻撃することが、オンラインヘイトと戦うためのより効果的な議論戦略につながるかどうかを評価する。人間と自動による広範な評価を実施することで、安全ガードレールの存在が、本来ポジティブな社会的相互作用を促進することを目的とするタスクにとっても有害であることを示す。さらに、我々の結果は、ヘイトスピーチの特定の構成要素、特にその暗黙の否定的ステレオタイプや憎悪的な部分を攻撃することが、より質の高い世代につながることを示している。

要約(オリジナル)

The potential effectiveness of counterspeech as a hate speech mitigation strategy is attracting increasing interest in the NLG research community, particularly towards the task of automatically producing it. However, automatically generated responses often lack the argumentative richness which characterises expert-produced counterspeech. In this work, we focus on two aspects of counterspeech generation to produce more cogent responses. First, by investigating the tension between helpfulness and harmlessness of LLMs, we test whether the presence of safety guardrails hinders the quality of the generations. Secondly, we assess whether attacking a specific component of the hate speech results in a more effective argumentative strategy to fight online hate. By conducting an extensive human and automatic evaluation, we show how the presence of safety guardrails can be detrimental also to a task that inherently aims at fostering positive social interactions. Moreover, our results show that attacking a specific component of the hate speech, and in particular its implicit negative stereotype and its hateful parts, leads to higher-quality generations.

arxiv情報

著者 Helena Bonaldi,Greta Damo,Nicolás Benjamín Ocampo,Elena Cabrio,Serena Villata,Marco Guerini
発行日 2024-10-04 14:31:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク