Unsupervised Episode Detection for Large-Scale News Events

要約

エピソード構造は本質的に解釈可能であり、進化する大規模な重要なイベントに適応できます。
しかし、最先端の自動イベント検出方法はイベント エピソードを見落としているため、これらの重要な特性に苦労しています。
この論文では、主要なイベント記事を含むニュース コーパスからエピソードを識別することを目的とした、新しいタスクであるエピソード検出を紹介します。
エピソードは、特定の時間と場所で行動を実行する中心的存在(「抗議者」や「警察」など)の凝集したクラスターを説明します。
さらに、エピソードは、特定の主要なイベントの下にある、より大きなエピソード グループの重要な部分を占めます。
主要なイベントやアトミックアクションとは異なり、時間や場所の明示的な言及に頼ってエピソードを区別したり、意味論的な類似性を利用して一貫性のないエピソードの相互参照をマージしたりできないため、エピソードを自動的に検出することは困難です。
これらの課題に対処するために、私たちは教師なしエピソード検出フレームワークである EpiMine を導入します。これは、(1) 最も顕著で重要なイベントに関連する用語とセグメントを自動的に識別し、(2) シフトを通じて推定された自然なエピソード分割に基づいて記事内の候補エピソードを決定します。
(3) 候補エピソードに基づいた大規模言語モデルベースの推論を使用して、最終的なエピソード クラスターを洗練して形成します。
エピソード レベルで注釈が付けられた 3 つの多様な現実世界のイベント データセットを構築します。
EpiMine は、すべてのメトリックにわたって平均 59.2% の増加により、これらのデータセットのすべてのベースラインを上回っています。

要約(オリジナル)

Episodic structures are inherently interpretable and adaptable to evolving large-scale key events. However, state-of-the-art automatic event detection methods overlook event episodes and, therefore, struggle with these crucial characteristics. This paper introduces a novel task, episode detection, aimed at identifying episodes from a news corpus containing key event articles. An episode describes a cohesive cluster of core entities (e.g., ‘protesters’, ‘police’) performing actions at a specific time and location. Furthermore, an episode is a significant part of a larger group of episodes under a particular key event. Automatically detecting episodes is challenging because, unlike key events and atomic actions, we cannot rely on explicit mentions of times and locations to distinguish between episodes or use semantic similarity to merge inconsistent episode co-references. To address these challenges, we introduce EpiMine, an unsupervised episode detection framework that (1) automatically identifies the most salient, key-event-relevant terms and segments, (2) determines candidate episodes in an article based on natural episodic partitions estimated through shifts in discriminative term combinations, and (3) refines and forms final episode clusters using large language model-based reasoning on the candidate episodes. We construct three diverse, real-world event datasets annotated at the episode level. EpiMine outperforms all baselines on these datasets by an average 59.2% increase across all metrics.

arxiv情報

著者 Priyanka Kargupta,Yunyi Zhang,Yizhu Jiao,Siru Ouyang,Jiawei Han
発行日 2024-08-09 05:26:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク