MAVEN-Arg: Completing the Puzzle of All-in-One Event Understanding Dataset with Event Argument Annotation

要約

テキスト内のイベントを理解することは自然言語理解の中核目的であり、イベントの発生を検出し、イベントの引数を抽出し、イベント間の関係を分析する必要があります。
しかし、タスクの複雑さによってもたらされるアノテーションの課題のため、イベント理解の全プロセスをカバーする大規模なデータセットは長い間存在していませんでした。
このペーパーでは、MAVEN データセットをイベント引数アノテーションで拡張し、イベント検出、イベント引数抽出 (EAE)、およびイベント関係抽出をサポートする初のオールインワン データセットを作成する MAVEN-Arg を紹介します。
EAE ベンチマークとして、MAVEN-Arg には 3 つの主な利点があります。(1) 162 のイベント タイプと 612 の引数の役割をカバーする包括的なスキーマ。すべて専門家が作成した定義と例が含まれています。
(2) 手間のかかる人間による注釈によって取得された 98,591 個のイベントと 290,613 個の引数を含む大規模なデータ。
(3) EAE のすべてのタスク バリアントをサポートする網羅的なアノテーション。これは、ドキュメント レベルでエンティティ イベント引数と非エンティティ イベント引数の両方にアノテーションを付けます。
実験によると、MAVEN-Arg は、微調整された EAE モデルと独自の大規模言語モデル (LLM) の両方にとって非常に困難であることが示されています。
さらに、オールインワン データセットの利点を実証するために、LLM を使用した潜在的なアプリケーションである将来のイベント予測を事前に調査します。
MAVEN-Arg とコードは https://github.com/THU-KEG/MAVEN-Argument から入手できます。

要約(オリジナル)

Understanding events in texts is a core objective of natural language understanding, which requires detecting event occurrences, extracting event arguments, and analyzing inter-event relationships. However, due to the annotation challenges brought by task complexity, a large-scale dataset covering the full process of event understanding has long been absent. In this paper, we introduce MAVEN-Arg, which augments MAVEN datasets with event argument annotations, making the first all-in-one dataset supporting event detection, event argument extraction (EAE), and event relation extraction. As an EAE benchmark, MAVEN-Arg offers three main advantages: (1) a comprehensive schema covering 162 event types and 612 argument roles, all with expert-written definitions and examples; (2) a large data scale, containing 98,591 events and 290,613 arguments obtained with laborious human annotation; (3) the exhaustive annotation supporting all task variants of EAE, which annotates both entity and non-entity event arguments in document level. Experiments indicate that MAVEN-Arg is quite challenging for both fine-tuned EAE models and proprietary large language models (LLMs). Furthermore, to demonstrate the benefits of an all-in-one dataset, we preliminarily explore a potential application, future event prediction, with LLMs. MAVEN-Arg and our code can be obtained from https://github.com/THU-KEG/MAVEN-Argument.

arxiv情報

著者 Xiaozhi Wang,Hao Peng,Yong Guan,Kaisheng Zeng,Jianhui Chen,Lei Hou,Xu Han,Yankai Lin,Zhiyuan Liu,Ruobing Xie,Jie Zhou,Juanzi Li
発行日 2023-11-15 16:52:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク