要約
ニュースの状況は常に進化しており、世界中からの情報量が増え続けています。
この膨大なデータ リポジトリ内の自動イベント検出は、さまざまなプラットフォームにわたる重要なニュースの発生を監視、特定、分類するために不可欠です。
このペーパーでは、大規模言語モデル (LLM) とクラスタリング分析を組み合わせて活用し、Global Database of Events, Language, and Tone (GDELT) からニュース イベントを検出するイベント検出フレームワークを紹介します。
このフレームワークは、イベント検出前のタスク (キーワード抽出とテキストの埋め込み) とイベント検出後のタスク (イベントの要約とトピックのラベル付け) の両方を通じてイベントのクラスタリングを強化します。
また、クラスタリング結果の品質に対するさまざまなテキスト埋め込みの影響も評価し、堅牢なニュース分類を保証します。
さらに、クラスタリング結果の妥当性と堅牢性を評価するために、新しいクラスター安定性評価指数 (CSAI) を導入します。
CSAI は潜在特徴ベクトルを利用して、クラスタリングの品質を測定する新しい方法を提供します。
私たちの実験では、LLM 埋め込みとクラスタリング アルゴリズムを組み合わせると最良の結果が得られ、CSAI スコアの点で優れた堅牢性が実証されたことが示されています。
さらに、イベント後の検出タスクにより有意義な洞察が生成され、イベントのクラスタリング結果の効果的な解釈が容易になります。
全体として、私たちの実験結果は、提案されたフレームワークが貴重な洞察を提供し、ニュース報道の精度と深みを高める可能性があることを示しています。
要約(オリジナル)
The news landscape is continuously evolving, with an ever-increasing volume of information from around the world. Automated event detection within this vast data repository is essential for monitoring, identifying, and categorizing significant news occurrences across diverse platforms. This paper presents an event detection framework that leverages Large Language Models (LLMs) combined with clustering analysis to detect news events from the Global Database of Events, Language, and Tone (GDELT). The framework enhances event clustering through both pre-event detection tasks (keyword extraction and text embedding) and post-event detection tasks (event summarization and topic labeling). We also evaluate the impact of various textual embeddings on the quality of clustering outcomes, ensuring robust news categorization. Additionally, we introduce a novel Cluster Stability Assessment Index (CSAI) to assess the validity and robustness of clustering results. CSAI utilizes latent feature vectors to provide a new way of measuring clustering quality. Our experiments indicate that combining LLM embeddings with clustering algorithms yields the best results, demonstrating greater robustness in terms of CSAI scores. Moreover, post-event detection tasks generate meaningful insights, facilitating effective interpretation of event clustering results. Overall, our experimental results indicate that the proposed framework offers valuable insights and could enhance the accuracy and depth of news reporting.
arxiv情報
著者 | Adane Nega Tarekegn |
発行日 | 2024-06-26 17:42:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google