Towards Event Extraction with Massive Types: LLM-based Collaborative Annotation and Partitioning Extraction

要約

大規模なタイプでイベントを抽出できる汎用抽出システムを開発することは、イベント抽出(EE)の長年のターゲットです。
そうすることで、課題は2つの側面から来ています。1)効率的で効果的な注釈法がないことです。
2)強力な抽出方法がないと、大規模なタイプを処理できます。
最初の課題のために、大規模な言語モデル(LLMS)に基づいた共同注釈法を提案します。
複数のLLM間のコラボレーションを通じて、最初にトリガーワードの注釈が遠くの監督から洗練され、次に議論の注釈が実行されます。
次に、投票段階では、異なるLLMにわたって注釈設定を統合します。
最後に、これまでで最大のEEデータセットであるEEMTデータセットを作成し、200,000を超えるサンプル、3,465のイベントタイプ、6,297のロールタイプを備えています。
2番目の課題については、LLM-PEEと呼ばれるLLMベースのパーティションEEメソッドを提案します。
LLMSの限られたコンテキストの長さを克服するために、LLM-PEEは最初に候補イベントタイプをリコールし、次にそれらをLLMSの複数のパーティションに分割してイベントを抽出します。
監視された設定の結果は、LLM-PEEがイベント検出で5.4、引数抽出で6.1で最先端の方法を上回ることを示しています。
ゼロショット設定では、LLM-PEEは主流のLLMSと比較して最大12.9の改善を達成し、その強力な一般化能力を実証しています。

要約(オリジナル)

Developing a general-purpose extraction system that can extract events with massive types is a long-standing target in Event Extraction (EE). In doing so, the challenge comes from two aspects: 1) The absence of an efficient and effective annotation method. 2) The absence of a powerful extraction method can handle massive types. For the first challenge, we propose a collaborative annotation method based on Large Language Models (LLMs). Through collaboration among multiple LLMs, it first refines annotations of trigger words from distant supervision and then carries out argument annotation. Next, a voting phase consolidates the annotation preferences across different LLMs. Finally, we create the EEMT dataset, the largest EE dataset to date, featuring over 200,000 samples, 3,465 event types, and 6,297 role types. For the second challenge, we propose an LLM-based Partitioning EE method called LLM-PEE. To overcome the limited context length of LLMs, LLM-PEE first recalls candidate event types and then splits them into multiple partitions for LLMs to extract events. The results in the supervised setting show that LLM-PEE outperforms the state-of-the-art methods by 5.4 in event detection and 6.1 in argument extraction. In the zero-shot setting, LLM-PEE achieves up to 12.9 improvement compared to mainstream LLMs, demonstrating its strong generalization capabilities.

arxiv情報

著者 Wenxuan Liu,Zixuan Li,Long Bai,Yuxin Zuo,Daozhu Xu,Xiaolong Jin,Jiafeng Guo,Xueqi Cheng
発行日 2025-03-04 13:53:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク