Unsupervised Episode Detection for Large-Scale News Events


しかし、最先端の自動イベント検出方法はイベント エピソードを見落としているため、これらの重要な特性に苦労しています。
この論文では、主要なイベント記事を含むニュース コーパスからエピソードを識別することを目的とした、新しいタスクであるエピソード検出を紹介します。
さらに、エピソードは、特定の主要なイベントの下にある、より大きなエピソード グループの重要な部分を占めます。
これらの課題に対処するために、私たちは教師なしエピソード検出フレームワークである EpiMine を導入します。これは、(1) 最も顕著で重要なイベントに関連する用語とセグメントを自動的に識別し、(2) シフトを通じて推定された自然なエピソード分割に基づいて記事内の候補エピソードを決定します。
(3) 候補エピソードに基づいた大規模言語モデルベースの推論を使用して、最終的なエピソード クラスターを洗練して形成します。
エピソード レベルで注釈が付けられた 3 つの多様な現実世界のイベント データセットを構築します。
EpiMine は、すべてのメトリックにわたって平均 59.2% の増加により、これらのデータセットのすべてのベースラインを上回っています。


Episodic structures are inherently interpretable and adaptable to evolving large-scale key events. However, state-of-the-art automatic event detection methods overlook event episodes and, therefore, struggle with these crucial characteristics. This paper introduces a novel task, episode detection, aimed at identifying episodes from a news corpus containing key event articles. An episode describes a cohesive cluster of core entities (e.g., ‘protesters’, ‘police’) performing actions at a specific time and location. Furthermore, an episode is a significant part of a larger group of episodes under a particular key event. Automatically detecting episodes is challenging because, unlike key events and atomic actions, we cannot rely on explicit mentions of times and locations to distinguish between episodes or use semantic similarity to merge inconsistent episode co-references. To address these challenges, we introduce EpiMine, an unsupervised episode detection framework that (1) automatically identifies the most salient, key-event-relevant terms and segments, (2) determines candidate episodes in an article based on natural episodic partitions estimated through shifts in discriminative term combinations, and (3) refines and forms final episode clusters using large language model-based reasoning on the candidate episodes. We construct three diverse, real-world event datasets annotated at the episode level. EpiMine outperforms all baselines on these datasets by an average 59.2% increase across all metrics.


著者 Priyanka Kargupta,Yunyi Zhang,Yizhu Jiao,Siru Ouyang,Jiawei Han
発行日 2024-08-09 05:26:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク