要約
AI によって生成された反対演説は、市民間の議論を促進する直接的な返信を通じてオンラインの有害性を抑制する、有望かつ拡張可能な戦略を提供します。
しかし、現在の反対演説は画一的であり、モデレーションの状況や関与するユーザーへの適応が欠けています。
私たちは、モデレーションのコンテキストに適応し、モデレートされたユーザーに合わせてカスタマイズされたカウンタースピーチを生成するための複数の戦略を提案および評価します。
LLaMA2-13B モデルにカウンタースピーチを生成するように指示し、さまざまなコンテキスト情報と微調整戦略に基づいてさまざまな構成を実験します。
定量的な指標と、事前に登録された混合デザインのクラウドソーシング実験を通じて収集された人による評価の組み合わせを通じて、説得力のある反論を生み出す構成を特定します。
結果は、文脈に応じた反対演説が、他の特性を損なうことなく、適切性と説得力の点で最先端の一般的な反対演説よりも大幅に優れていることを示しています。
また、私たちの調査結果では、定量的指標と人間による評価との相関関係が低いことも明らかになり、これらの手法がさまざまな側面を評価していることが示唆され、微妙な評価手法の必要性が強調されています。
状況に応じた AI 生成の反論の有効性と、人間による評価とアルゴリズムによる評価の乖離は、コンテンツのモデレーションにおいて人間と AI のコラボレーションを強化することの重要性を浮き彫りにしています。
要約(オリジナル)
AI-generated counterspeech offers a promising and scalable strategy to curb online toxicity through direct replies that promote civil discourse. However, current counterspeech is one-size-fits-all, lacking adaptation to the moderation context and the users involved. We propose and evaluate multiple strategies for generating tailored counterspeech that is adapted to the moderation context and personalized for the moderated user. We instruct an LLaMA2-13B model to generate counterspeech, experimenting with various configurations based on different contextual information and fine-tuning strategies. We identify the configurations that generate persuasive counterspeech through a combination of quantitative indicators and human evaluations collected via a pre-registered mixed-design crowdsourcing experiment. Results show that contextualized counterspeech can significantly outperform state-of-the-art generic counterspeech in adequacy and persuasiveness, without compromising other characteristics. Our findings also reveal a poor correlation between quantitative indicators and human evaluations, suggesting that these methods assess different aspects and highlighting the need for nuanced evaluation methodologies. The effectiveness of contextualized AI-generated counterspeech and the divergence between human and algorithmic evaluations underscore the importance of increased human-AI collaboration in content moderation.
arxiv情報
著者 | Lorenzo Cima,Alessio Miaschi,Amaury Trujillo,Marco Avvenuti,Felice Dell’Orletta,Stefano Cresci |
発行日 | 2024-12-19 15:41:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google