Strengthening Fake News Detection: Leveraging SVM and Sophisticated Text Vectorization Techniques. Defying BERT?

要約

特にオンライン プラットフォームを通じての誤った情報の急速な拡散は、信頼性の高い検出システムの緊急の必要性を浮き彫りにしています。
この研究では、機械学習と自然言語処理、特にサポート ベクター マシン (SVM) と BERT を利用してフェイク ニュースを検出する方法を調査します。
SVM には、用語頻度逆文書頻度 (TF-IDF)、Word2Vec、Bag of Words (BoW) という 3 つの異なるテキスト ベクトル化手法を採用し、本物のニュースとフェイク ニュースを区別する有効性を評価しています。
さらに、これらのメソッドをトランスフォーマー大規模言語モデル BERT と比較します。
当社の包括的なアプローチには、詳細な前処理手順、厳密なモデルの実装、最も効果的な手法を決定するための徹底的な評価が含まれます。
この結果は、BERT が 99.98% の精度と 0.9998 の F1 スコアという優れた精度を達成する一方で、線形カーネルと BoW ベクトル化を備えた SVM モデルも非常に優れたパフォーマンスを示し、99.81% の精度と 0.9980 の F1 スコアを達成することを示しています。
これらの調査結果は、BERT のパフォーマンスが優れているにもかかわらず、BoW および TF-IDF ベクトル化手法を使用した SVM モデルが著しく近く、計算要件が低いという利点を備えた非常に競争力のあるパフォーマンスを提供することを強調しています。

要約(オリジナル)

The rapid spread of misinformation, particularly through online platforms, underscores the urgent need for reliable detection systems. This study explores the utilization of machine learning and natural language processing, specifically Support Vector Machines (SVM) and BERT, to detect news that are fake. We employ three distinct text vectorization methods for SVM: Term Frequency Inverse Document Frequency (TF-IDF), Word2Vec, and Bag of Words (BoW) evaluating their effectiveness in distinguishing between genuine and fake news. Additionally, we compare these methods against the transformer large language model, BERT. Our comprehensive approach includes detailed preprocessing steps, rigorous model implementation, and thorough evaluation to determine the most effective techniques. The results demonstrate that while BERT achieves superior accuracy with 99.98% and an F1-score of 0.9998, the SVM model with a linear kernel and BoW vectorization also performs exceptionally well, achieving 99.81% accuracy and an F1-score of 0.9980. These findings highlight that, despite BERT’s superior performance, SVM models with BoW and TF-IDF vectorization methods come remarkably close, offering highly competitive performance with the advantage of lower computational requirements.

arxiv情報

著者 Ahmed Akib Jawad Karim,Kazi Hafiz Md Asad,Aznur Azam
発行日 2024-11-19 18:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク