Real-time Fake News from Adversarial Feedback

要約

ファクトチェック Web サイトでの主張など、従来の情報源に基づいたフェイク ニュース検出の既存の評価により、知識が遮断された後でも、LLM ベースの検出器の精度が時間の経過とともに向上することを示します。
これは、そのような情報源からのフェイクニュースの大部分を形成する最近の人気のある政治的主張が、表面レベルの浅いパターンを使用して簡単に分類できることを示唆しています。
その代わりに、適切なフェイクニュース検出データセットは、関連する証拠を取得して読み取ることによって、現在の世界について事実に基づいて推論するモデルの能力をテストする必要があると主張します。
この目的を達成するために、RAG ベースの検出器からの自然言語フィードバックを活用して、リアルタイム ニュースを LLM に挑戦する欺瞞的なフェイク ニュースに繰り返し変更する新しいパイプラインを開発します。
反復的な書き換えにより、強力な RAG GPT-4o 検出器のバイナリ分類 AUC が絶対 17.5 パーセント減少します。
私たちの実験では、取得不要の LLM 検出器は目に見えないイベントや敵対的な攻撃に対して脆弱である一方、RAG 検出からのフィードバックはフェイク ニュースのより欺瞞的なパターンを発見するのに役立つため、フェイク ニュースの検出と生成の両方において RAG が重要な役割を果たしていることが明らかになりました。

要約(オリジナル)

We show that existing evaluations for fake news detection based on conventional sources, such as claims on fact-checking websites, result in an increasing accuracy over time for LLM-based detectors — even after their knowledge cutoffs. This suggests that recent popular political claims, which form the majority of fake news on such sources, are easily classified using surface-level shallow patterns. Instead, we argue that a proper fake news detection dataset should test a model’s ability to reason factually about the current world by retrieving and reading related evidence. To this end, we develop a novel pipeline that leverages natural language feedback from a RAG-based detector to iteratively modify real-time news into deceptive fake news that challenges LLMs. Our iterative rewrite decreases the binary classification AUC by an absolute 17.5 percent for a strong RAG GPT-4o detector. Our experiments reveal the important role of RAG in both detecting and generating fake news, as retrieval-free LLM detectors are vulnerable to unseen events and adversarial attacks, while feedback from RAG detection helps discover more deceitful patterns in fake news.

arxiv情報

著者 Sanxing Chen,Yukun Huang,Bhuwan Dhingra
発行日 2024-10-18 17:47:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク