Moderating New Waves of Online Hate with Chain-of-Thought Reasoning in Large Language Models

要約

オンライン ヘイトは、インターネット ユーザーの生活に悪影響を与える深刻化する問題であり、また、進化する出来事によって急速に変化する可能性があり、その結果、オンライン ヘイトの新たな波が発生し、重大な脅威となります。
これらの新たな波の検出と軽減には、2 つの重要な課題があります。1 つは、ヘイトコンテンツの存在を判断するための推論に基づく複雑な意思決定が必要であること、もう 1 つは、トレーニング サンプルの入手が限られているため、検出モデルの更新が妨げられていることです。
この重大な問題に対処するために、私たちはオンラインヘイトの新たな波を効果的に緩和するための HATEGUARD と呼ばれる新しいフレームワークを紹介します。
HATEGUARD は、大規模言語モデル (LLM) の機能を利用して、最近導入された思考連鎖 (CoT) プロンプト手法を活用する推論ベースのアプローチを採用しています。
HATEGUARD はさらに、新しいウェーブ サンプル内の新しい軽蔑的な用語やターゲットを含む検出プロンプトを自動的に生成および更新することで、プロンプト ベースのゼロショット検出を実現し、オンライン ヘイトの新しい波に効果的に対処します。
私たちのアプローチの有効性を実証するために、私たちは、最近目撃された 3 つの新たな波、2022 年のロシアのウクライナ侵攻、2021 年の米国議会議事堂の蜂起、そして新型コロナウイルス感染症 (COVID-19) のパンデミックに関連するツイートで構成される新しいデータセットをコンパイルしました。
私たちの研究は、イベントの進化に関するこれらの新しい波における重要な長期パターンと、それらに対抗するために既存の調整ツールを迅速に更新する技術の緊急の必要性を明らかにしました。
最先端のツールとの比較評価は、オンライン ヘイトの 3 つの新たな波の検出において 22.22% から 83.33% の大幅な向上を示し、当社のフレームワークの優位性を示しています。
私たちの取り組みは、オンラインヘイトの新たな波の出現によってもたらされる深刻な脅威を浮き彫りにし、この脅威に実際的に対処する際のパラダイムシフトを表しています。

要約(オリジナル)

Online hate is an escalating problem that negatively impacts the lives of Internet users, and is also subject to rapid changes due to evolving events, resulting in new waves of online hate that pose a critical threat. Detecting and mitigating these new waves present two key challenges: it demands reasoning-based complex decision-making to determine the presence of hateful content, and the limited availability of training samples hinders updating the detection model. To address this critical issue, we present a novel framework called HATEGUARD for effectively moderating new waves of online hate. HATEGUARD employs a reasoning-based approach that leverages the recently introduced chain-of-thought (CoT) prompting technique, harnessing the capabilities of large language models (LLMs). HATEGUARD further achieves prompt-based zero-shot detection by automatically generating and updating detection prompts with new derogatory terms and targets in new wave samples to effectively address new waves of online hate. To demonstrate the effectiveness of our approach, we compile a new dataset consisting of tweets related to three recently witnessed new waves: the 2022 Russian invasion of Ukraine, the 2021 insurrection of the US Capitol, and the COVID-19 pandemic. Our studies reveal crucial longitudinal patterns in these new waves concerning the evolution of events and the pressing need for techniques to rapidly update existing moderation tools to counteract them. Comparative evaluations against state-of-the-art tools illustrate the superiority of our framework, showcasing a substantial 22.22% to 83.33% improvement in detecting the three new waves of online hate. Our work highlights the severe threat posed by the emergence of new waves of online hate and represents a paradigm shift in addressing this threat practically.

arxiv情報

著者 Nishant Vishwamitra,Keyan Guo,Farhan Tajwar Romit,Isabelle Ondracek,Long Cheng,Ziming Zhao,Hongxin Hu
発行日 2024-05-10 17:01:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG, cs.SI パーマリンク