GENEVA: Benchmarking Generalizability for Event Argument Extraction with Hundreds of Event Types and Argument Roles

要約

イベント引数抽出 (EAE) の最近の取り組みは、新しいイベントやドメインに対応するためにモデルの一般化性を向上させることに重点を置いています。
ただし、ACE や ERE などの標準ベンチマーク データセットがカバーするイベント タイプは 40 未満、エンティティ中心の引数ロールは 25 未満です。
多様性と範囲が限られているため、これらのデータセットでは EAE モデルの一般化可能性を適切に評価できません。
このペーパーでは、まず大規模で多様な EAE オントロジーを作成することで貢献します。
このオントロジーは、EAE 用の包括的なセマンティック ロール ラベリング (SRL) データセットである FrameNet を、これら 2 つのタスク間の類似性を利用して変換することによって作成されます。
次に、人間による専門家の徹底的なアノテーションが収集されてオントロジーが構築され、最終的に 115 個のイベントと 220 個の引数ロールが得られますが、ロールの大部分はエンティティではありません。
このオントロジーを利用して、限られたデータと目に見えないイベント タイプの一般化を処理するモデルの能力を評価することを目的とした、4 つのテスト スイートで構成される多様な一般化可能性ベンチマーク データセットである GENEVA をさらに紹介します。
さまざまなファミリーの 6 つの EAE モデルをベンチマークします。
結果は、非エンティティ引数の役割により、最もパフォーマンスの高いモデルでも 39% の F1 スコアしか達成できないことを示しており、GENEVA が EAE の一般化に新たな課題を提供していることを示しています。
全体として、私たちの大規模で多様な EAE オントロジーは、将来のより包括的なリソースの作成に役立ちますが、GENEVA は、EAE の一般化性を向上させるためのさらなる研究を奨励する挑戦的なベンチマーク データセットです。
コードとデータは https://github.com/PlusLabNLP/GENEVA にあります。

要約(オリジナル)

Recent works in Event Argument Extraction (EAE) have focused on improving model generalizability to cater to new events and domains. However, standard benchmarking datasets like ACE and ERE cover less than 40 event types and 25 entity-centric argument roles. Limited diversity and coverage hinder these datasets from adequately evaluating the generalizability of EAE models. In this paper, we first contribute by creating a large and diverse EAE ontology. This ontology is created by transforming FrameNet, a comprehensive semantic role labeling (SRL) dataset for EAE, by exploiting the similarity between these two tasks. Then, exhaustive human expert annotations are collected to build the ontology, concluding with 115 events and 220 argument roles, with a significant portion of roles not being entities. We utilize this ontology to further introduce GENEVA, a diverse generalizability benchmarking dataset comprising four test suites, aimed at evaluating models’ ability to handle limited data and unseen event type generalization. We benchmark six EAE models from various families. The results show that owing to non-entity argument roles, even the best-performing model can only achieve 39% F1 score, indicating how GENEVA provides new challenges for generalization in EAE. Overall, our large and diverse EAE ontology can aid in creating more comprehensive future resources, while GENEVA is a challenging benchmarking dataset encouraging further research for improving generalizability in EAE. The code and data can be found at https://github.com/PlusLabNLP/GENEVA.

arxiv情報

著者 Tanmay Parekh,I-Hung Hsu,Kuan-Hao Huang,Kai-Wei Chang,Nanyun Peng
発行日 2023-05-26 17:10:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク