MCFEND: A Multi-source Benchmark Dataset for Chinese Fake News Detection

要約

さまざまなオンライン ソースにわたるフェイク ニュースの蔓延は、一般の人々に大きな影響を与えています。
既存の中国のフェイクニュース検出データセットは、Weibo からのみソースされたニュースに限定されています。
しかし、複数のソースから発信されるフェイクニュースは、内容や社会的背景などさまざまな面で多様性を示します。
純粋に 1 つのニュース ソースに基づいてトレーニングされた手法は、現実世界のシナリオにはほとんど適用できません。
私たちのパイロット実験では、中国の大規模なフェイクニュース検出データセット Weibo-21 から学習する最先端の手法の F1 スコアが、テストデータをマルチソースニュースに変更すると 0.943 から 0.470 に大幅に低下することが実証されました。
データは、マルチソースのフェイクニュースの 3 分の 1 以上を特定できませんでした。
この制限に対処するために、私たちは MCFEND と呼ばれる中国のフェイク ニュース検出用の初のマルチソース ベンチマーク データセットを構築しました。このデータセットは、ソーシャル プラットフォーム、メッセージング アプリ、従来のオンライン ニュース メディアなどのさまざまなソースから収集したニュースで構成されています。
注目すべきことに、そのようなニュースは世界中の14の権威ある事実確認機関によって事実確認されています。
さらに、既存の中国のさまざまなフェイクニュース検出方法が、クロスソース、マルチソース、および目に見えないソースの方法で、提案されたデータセットに基づいて徹底的に評価されます。
MCFEND は、ベンチマーク データセットとして、現実世界のシナリオにおける中国のフェイク ニュース検出アプローチを前進させることを目的としています。

要約(オリジナル)

The prevalence of fake news across various online sources has had a significant influence on the public. Existing Chinese fake news detection datasets are limited to news sourced solely from Weibo. However, fake news originating from multiple sources exhibits diversity in various aspects, including its content and social context. Methods trained on purely one single news source can hardly be applicable to real-world scenarios. Our pilot experiment demonstrates that the F1 score of the state-of-the-art method that learns from a large Chinese fake news detection dataset, Weibo-21, drops significantly from 0.943 to 0.470 when the test data is changed to multi-source news data, failing to identify more than one-third of the multi-source fake news. To address this limitation, we constructed the first multi-source benchmark dataset for Chinese fake news detection, termed MCFEND, which is composed of news we collected from diverse sources such as social platforms, messaging apps, and traditional online news outlets. Notably, such news has been fact-checked by 14 authoritative fact-checking agencies worldwide. In addition, various existing Chinese fake news detection methods are thoroughly evaluated on our proposed dataset in cross-source, multi-source, and unseen source ways. MCFEND, as a benchmark dataset, aims to advance Chinese fake news detection approaches in real-world scenarios.

arxiv情報

著者 Yupeng Li,Haorui He,Jin Bai,Dacheng Wen
発行日 2024-07-24 05:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク