要約
この研究では、大規模な言語モデル(LLM)を使用した事実ベースの操作を通じて、合成偽ニュースの生成と評価を調査します。
実際の記事から重要な事実を抽出し、それらを変更し、コンテンツを再生して一貫性を維持しながら偽のニュースをシミュレートする新しい方法論を紹介します。
生成されたコンテンツの品質を評価するために、一連の評価メトリックの一貫性、非類似性、および正確性を提案します。
この研究では、偽のニュース分類における合成データの適用も調査し、従来の機械学習モデルとBertなどの変圧器ベースのモデルを比較しています。
私たちの実験は、変圧器モデル、特にBertが偽のニュース検出のために合成データを効果的に活用し、合成データの割合が少ない改善を示すことを示しています。
さらに、事実の矛盾を特定することに焦点を当てた事実検証機能は、合成偽のニュースを区別する最も有望な結果を提供します。
この研究は、偽のニュース検出システムを強化する合成データの可能性を強調し、将来の研究のための貴重な洞察を提供し、合成データ生成のターゲットを絞った改善が検出モデルをさらに強化できることを示唆しています。
要約(オリジナル)
This study explores the generation and evaluation of synthetic fake news through fact based manipulations using large language models (LLMs). We introduce a novel methodology that extracts key facts from real articles, modifies them, and regenerates content to simulate fake news while maintaining coherence. To assess the quality of the generated content, we propose a set of evaluation metrics coherence, dissimilarity, and correctness. The research also investigates the application of synthetic data in fake news classification, comparing traditional machine learning models with transformer based models such as BERT. Our experiments demonstrate that transformer models, especially BERT, effectively leverage synthetic data for fake news detection, showing improvements with smaller proportions of synthetic data. Additionally, we find that fact verification features, which focus on identifying factual inconsistencies, provide the most promising results in distinguishing synthetic fake news. The study highlights the potential of synthetic data to enhance fake news detection systems, offering valuable insights for future research and suggesting that targeted improvements in synthetic data generation can further strengthen detection models.
arxiv情報
著者 | Abdul Sittar,Luka Golob,Mateja Smiljanic |
発行日 | 2025-03-31 15:24:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google