A Novel Method for News Article Event-Based Embedding

要約

ニュース記事の埋め込みは、メディアの偏向検出、フェイクニュースの識別、ニュースの推薦など、様々な分野において重要なツールである。しかし、既存のニュース埋め込み手法は、ニュースイベントの潜在的な文脈を捉えるために最適化されていない。ほとんどの埋め込み手法は全文情報に依存しており、時間に関連した埋め込み生成は無視されている。本論文では、記事中で言及されたエンティティやテーマ、そして特定の出来事との歴史的なつながりに注目することで、ニュースの埋め込み生成を最適化する新規の軽量手法を提案する。我々は3つの段階からなる手法を提案する。まず、与えられたニュース記事からイベント、エンティティ、テーマを処理し抽出する。次に、現在と過去のデータに対して、時間を区切ったGloVeモデルを学習することで、テーマとエンティティの周期的な時間埋め込みを生成する。最後に、2つの異なるアプローチによって生成されたニュース埋め込みを連結する:記事レベルのベクトルにはSmooth Inverse Frequency (SIF)を、イベントに関連するニュアンス情報を含む埋め込みにはSiamese Neural Networksを使用する。GDELTプロジェクトの85万件以上のニュース記事と100万件以上のイベントを利用し、本手法のテストと評価を行った。検証のために、異なるニュース埋め込み生成手法の比較分析を行った。実験の結果、共有イベント検出タスクにおいて、我々の手法が最先端の手法を改善し、凌駕できることが実証された。

要約(オリジナル)

Embedding news articles is a crucial tool for multiple fields, such as media bias detection, identifying fake news, and making news recommendations. However, existing news embedding methods are not optimized to capture the latent context of news events. Most embedding methods rely on full-text information and neglect time-relevant embedding generation. In this paper, we propose a novel lightweight method that optimizes news embedding generation by focusing on entities and themes mentioned in articles and their historical connections to specific events. We suggest a method composed of three stages. First, we process and extract events, entities, and themes from the given news articles. Second, we generate periodic time embeddings for themes and entities by training time-separated GloVe models on current and historical data. Lastly, we concatenate the news embeddings generated by two distinct approaches: Smooth Inverse Frequency (SIF) for article-level vectors and Siamese Neural Networks for embeddings with nuanced event-related information. We leveraged over 850,000 news articles and 1,000,000 events from the GDELT project to test and evaluate our method. We conducted a comparative analysis of different news embedding generation methods for validation. Our experiments demonstrate that our approach can both improve and outperform state-of-the-art methods on shared event detection tasks.

arxiv情報

著者 Koren Ishlach,Itzhak Ben-David,Michael Fire,Lior Rokach
発行日 2024-08-02 09:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.SI パーマリンク