It’s All in the Embedding! Fake News Detection Using Document Embeddings

要約

タイトル: 単語の埋め込みに重点を置いたフェイクニュース検出

要約:
– 社会がジャーナリスティックな厳格さからソーシャルメディアのウェブサイトに移行している現在、パーソナライズされたソーシャルメディアが通常化しています。
– メディアのデジタル化の進展は多くの利点をもたらしますが、偽情報、誤情報、および誤情報の拡散のリスクも増加します。
– この有害な現象の発生は、社会を二極化させ、特定のトピック、例えば選挙、ワクチンなどの公共の意見を操作することに成功しています。
– ソーシャルメディアで伝播されるこのような情報は、従来のジャーナリズムの厳格さを欠いたまま、公衆の認識を歪め、社会不安を引き起こす可能性があります。
– Fake News検出のために、自然言語処理と機械学習技術は必須です。
– テキストデータの文脈を使用するモデルは、言語的特徴を単語のベクトル表現にエンコードするため、Fake News検出問題を解決するために必要です。
– 本論文では、ドキュメント埋め込みを使用して、偽のニュース記事を正確にラベル付けする複数のモデルを構築する新しいアプローチを提案しています。
– また、バイナリまたはマルチラベル分類を使用して偽のニュースを検出するさまざまなアーキテクチャのベンチマークも提供しています。
– 正解率、適合率、再現率を使用して、5つの大規模なニュースコーパスでモデルを評価しました。
– 複雑な最新のディープニューラルネットワークモデルよりも良い結果を得ました。
– 高い正確性を得るための最も重要な要素は、分類モデルの複雑さではなく、ドキュメントのエンコーディングであると観察されました。

要約(オリジナル)

With the current shift in the mass media landscape from journalistic rigor to social media, personalized social media is becoming the new norm. Although the digitalization progress of the media brings many advantages, it also increases the risk of spreading disinformation, misinformation, and malformation through the use of fake news. The emergence of this harmful phenomenon has managed to polarize society and manipulate public opinion on particular topics, e.g., elections, vaccinations, etc. Such information propagated on social media can distort public perceptions and generate social unrest while lacking the rigor of traditional journalism. Natural Language Processing and Machine Learning techniques are essential for developing efficient tools that can detect fake news. Models that use the context of textual data are essential for resolving the fake news detection problem, as they manage to encode linguistic features within the vector representation of words. In this paper, we propose a new approach that uses document embeddings to build multiple models that accurately label news articles as reliable or fake. We also present a benchmark on different architectures that detect fake news using binary or multi-labeled classification. We evaluated the models on five large news corpora using accuracy, precision, and recall. We obtained better results than more complex state-of-the-art Deep Neural Network models. We observe that the most important factor for obtaining high accuracy is the document encoding, not the classification model’s complexity.

arxiv情報

著者 Ciprian-Octavian Truică,Elena-Simona Apostol
発行日 2023-04-16 13:30:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク