要約
偽のニュースは、選挙に影響を与え、誤った情報を広め、検出を重要にすることにより、世界的なリスクをもたらします。
既存のNLPと監視された機械学習方法は、相互検証下でうまく機能しますが、同じドメイン内であっても、データセット全体で一般化するのに苦労しています。
この問題は、記事が出版社に基づいてラベル付けされている粗くラベル付けされたトレーニングデータに由来しており、TF-IDFやBertなどのトークンベースのモデルが敏感であるバイアスを導入しています。
大規模な言語モデル(LLM)は約束を提供しますが、偽のニュース検出への適用はまだ限られています。
この研究は、現実世界の堅牢性を改善するために、意味のある機能を粗くラベル付けされたデータから抽出できることを示しています。
データセットバイアスに対する感度が低下しているため、文体的特徴、屈電的、構文、およびセマンティックが調査されています。
さらに、新しいソーシャルモネシテーション機能が導入され、広告、外部リンク、ソーシャルメディア要素など、偽のニュースの背後にある経済的インセンティブを捉えています。
この調査では、粗くラベル付けされたNELA 2020-21データセットでトレーニングを行い、一般化のためのゴールドスタンダードである手動でラベル付けされたFacebook URLSデータセットを使用して評価します。
結果は、偏ったデータで訓練されたトークンベースのモデルの制限を強調し、この分野のLLAMAのようなLLMの希少な証拠に貢献します。
調査結果は、トークンベースのメソッドやLLMよりも、文体的および社会的融解機能がより一般化可能な予測を提供することを示しています。
統計的および順列の特徴の重要性分析により、パフォーマンスを向上させ、データセットバイアスを緩和する可能性がさらに明らかになり、偽のニュース検出を改善するための前進を提供します。
要約(オリジナル)
Fake news poses global risks by influencing elections and spreading misinformation, making detection critical. Existing NLP and supervised Machine Learning methods perform well under cross-validation but struggle to generalise across datasets, even within the same domain. This issue stems from coarsely labelled training data, where articles are labelled based on their publisher, introducing biases that token-based models like TF-IDF and BERT are sensitive to. While Large Language Models (LLMs) offer promise, their application in fake news detection remains limited. This study demonstrates that meaningful features can still be extracted from coarsely labelled data to improve real-world robustness. Stylistic features-lexical, syntactic, and semantic-are explored due to their reduced sensitivity to dataset biases. Additionally, novel social-monetisation features are introduced, capturing economic incentives behind fake news, such as advertisements, external links, and social media elements. The study trains on the coarsely labelled NELA 2020-21 dataset and evaluates using the manually labelled Facebook URLs dataset, a gold standard for generalisability. Results highlight the limitations of token-based models trained on biased data and contribute to the scarce evidence on LLMs like LLaMa in this field. Findings indicate that stylistic and social-monetisation features offer more generalisable predictions than token-based methods and LLMs. Statistical and permutation feature importance analyses further reveal their potential to enhance performance and mitigate dataset biases, providing a path forward for improving fake news detection.
arxiv情報
著者 | Nathaniel Hoy,Theodora Koulouri |
発行日 | 2025-02-27 17:26:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google