Fake News in Sheep’s Clothing: Robust Fake News Detection Against LLM-Empowered Style Attacks

要約

フェイクニュースと本物のニュースは、センセーショナルな言語の使用と客観的な言語の使用など、異なる文体を示すと一般に認識されています。
ただし、スタイル関連の機能はスタイルベースの攻撃にも悪用される可能性があることを強調します。
特に、強力なラージ言語モデル (LLM) の出現により、悪意のある攻撃者が信頼できるニュース ソースのスタイルを模倣し、迅速かつコスト効率よく、大規模に実行できるようになりました。
私たちの分析では、LLM で偽装されたフェイク ニュース コンテンツが最先端のテキストベースの検出器の有効性を大幅に損ない (F1 スコアが最大 38% 低下)、文体のバリエーションに対する深刻な脆弱性を示唆していることが明らかになりました。
これに対処するために、ニュースの真実性を判断する際にスタイルよりもコンテンツを優先する、スタイルに強いフェイクニュース検出器である SheepDog を紹介します。
SheepDog は、(1) さまざまなスタイルに合わせて記事をカスタマイズすることで、トレーニング プロセスにスタイルの多様性を注入する、LLM を活用したニュースの再構成を通じてこの回復力を実現します。
(2) スタイルに依存しないトレーニング スキームにより、スタイルの多様なリフレーミング全体で一貫した正確性の予測が保証されます。
(3) コンテンツに焦点を当てた真実性帰属。フェイクニュースを暴くために LLM からコンテンツ中心のガイドラインを抽出し、真実性の予測を支援する補足的な手がかりと潜在的な解釈可能性を提供します。
3 つの現実世界のベンチマークに関する広範な実験により、SheepDog のスタイルの堅牢性とさまざまなバックボーンへの適応性が実証されました。

要約(オリジナル)

It is commonly perceived that fake news and real news exhibit distinct writing styles, such as the use of sensationalist versus objective language. However, we emphasize that style-related features can also be exploited for style-based attacks. Notably, the advent of powerful Large Language Models (LLMs) has empowered malicious actors to mimic the style of trustworthy news sources, doing so swiftly, cost-effectively, and at scale. Our analysis reveals that LLM-camouflaged fake news content significantly undermines the effectiveness of state-of-the-art text-based detectors (up to 38% decrease in F1 Score), implying a severe vulnerability to stylistic variations. To address this, we introduce SheepDog, a style-robust fake news detector that prioritizes content over style in determining news veracity. SheepDog achieves this resilience through (1) LLM-empowered news reframings that inject style diversity into the training process by customizing articles to match different styles; (2) a style-agnostic training scheme that ensures consistent veracity predictions across style-diverse reframings; and (3) content-focused veracity attributions that distill content-centric guidelines from LLMs for debunking fake news, offering supplementary cues and potential intepretability that assist veracity prediction. Extensive experiments on three real-world benchmarks demonstrate SheepDog’s style robustness and adaptability to various backbones.

arxiv情報

著者 Jiaying Wu,Jiafeng Guo,Bryan Hooi
発行日 2024-08-20 17:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク