MisRoBÆRTa: Transformers versus Misinformation


タイトル: MisRoBÆRTa: Transformers versus Misinformation(MisRoBÆRTa: トランスフォーマと Des情報)

– デマ情報は、民主主義的な価値観や原則に対する脅威と見なされている。
– ソーシャルメディア上でのこれらのコンテンツの拡散は、従来のジャーナリズムの厳密さに欠け、公衆の認識を歪め、社会的不安を引き起こすことで、社会を極めて偏向させる。
– 複数の自然言語処理タスクにおいて、トランスフォーマと転移学習は最先端の方法であることが証明されている。
– この論文では、MisRoB \ AE \ RTaという新しいトランスフォーマベースの深層ニューラルアンサンブルアーキテクチャを提案し、デマ情報の検出に利用した。
– MisRoB \ AE \ RTaは、2つのトランスフォーマ(BART&RoBERTa)を活用して、分類性能を改善する。
– 複数のトランスフォーマについて、デマ情報検出のタスクの性能をベンチマーク化し、評価した。
– トレーニングとテストには、10のクラスでラベル付けされた大規模な実世界のニュース記事データセットを使用し、その内容を手動で確認して適切なラベルが付いていることを確認した。
– 実験結果によると、コンテキストを学習するために使用される方法、データセットのサイズ、および語彙の次元数によって、デマ情報を検出するためのトランスフォーマの精度は著しく影響を受けることがわかった。
– BARTでの二値分類のみを使用した分類モデルの中で、最も優れた精度性能を示すのはEmpiricallyであることがわかった。一方、 DistilRoBERTaはファインチューニングとトレーニングに最小限の時間が必要で、最高の正確性を示すことができる。
– 提案されたMisRoB \ AE \ RTaは、デマ情報の検出のタスクにおいて、他のトランスフォーマモデルよりも優れた性能を発揮した。
– また、複数の実験を行い、MisRoB \ AE \ RTaを2つのデータセットに使用して、アブレーションテストと感度テストも行った。


Misinformation is considered a threat to our democratic values and principles. The spread of such content on social media polarizes society and undermines public discourse by distorting public perceptions and generating social unrest while lacking the rigor of traditional journalism. Transformers and transfer learning proved to be state-of-the-art methods for multiple well-known natural language processing tasks. In this paper, we propose MisRoB{\AE}RTa, a novel transformer-based deep neural ensemble architecture for misinformation detection. MisRoB{\AE}RTa takes advantage of two transformers (BART \& RoBERTa) to improve the classification performance. We also benchmarked and evaluated the performances of multiple transformers on the task of misinformation detection. For training and testing, we used a large real-world news articles dataset labeled with 10 classes, addressing two shortcomings in the current research: increasing the size of the dataset from small to large, and moving the focus of fake news detection from binary classification to multi-class classification. For this dataset, we manually verified the content of the news articles to ensure that they were correctly labeled. The experimental results show that the accuracy of transformers on the misinformation detection problem was significantly influenced by the method employed to learn the context, dataset size, and vocabulary dimension. We observe empirically that the best accuracy performance among the classification models that use only one transformer is obtained by BART, while DistilRoBERTa obtains the best accuracy in the least amount of time required for fine-tuning and training. The proposed MisRoB{\AE}RTa outperforms the other transformer models in the task of misinformation detection. To arrive at this conclusion, we performed ample ablation and sensitivity testing with MisRoB{\AE}RTa on two datasets.


著者 Ciprian-Octavian Truică,Elena-Simona Apostol
発行日 2023-04-16 12:14:38+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.AI, cs.CL パーマリンク