The Devil is in the Details: On the Pitfalls of Event Extraction Evaluation

要約

イベント抽出 (EE) は、テキストからイベントを抽出することを目的とした重要なタスクであり、イベント検出 (ED) とイベント引数抽出 (EAE) の 2 つのサブタスクが含まれます。
この論文では、EE 評価の信頼性をチェックし、3 つの主要な落とし穴を特定します。(1) データ前処理の不一致により、同じデータセットの評価結果を直接比較できなくなりますが、データ前処理の詳細は広く注目されておらず、論文でも明記されていません。
(2) 異なるモデルパラダイムの出力空間の不一致により、異なるパラダイムの EE モデルには比較の根拠がなくなり、予測とアノテーション間のマッピングの問題が不明確になります。
(3) 多くの EAE 専用作品のパイプライン評価が欠如しているため、EE 作品と直接比較することが難しく、現実のパイプライン シナリオにおけるモデルのパフォーマンスを十分に反映していない可能性があります。
私たちは、最近の論文と実証実験の包括的なメタ分析を通じて、これらの落とし穴の重大な影響を実証します。
これらの落とし穴を回避するために、データの前処理の指定、出力の標準化、パイプライン評価結果の提供など、一連の解決策を提案します。
これらの救済策の実装を支援するために、私たちは一貫した評価フレームワーク OMNIEVENT を開発しました。これは https://github.com/THU-KEG/OmniEvent から入手できます。

要約(オリジナル)

Event extraction (EE) is a crucial task aiming at extracting events from texts, which includes two subtasks: event detection (ED) and event argument extraction (EAE). In this paper, we check the reliability of EE evaluations and identify three major pitfalls: (1) The data preprocessing discrepancy makes the evaluation results on the same dataset not directly comparable, but the data preprocessing details are not widely noted and specified in papers. (2) The output space discrepancy of different model paradigms makes different-paradigm EE models lack grounds for comparison and also leads to unclear mapping issues between predictions and annotations. (3) The absence of pipeline evaluation of many EAE-only works makes them hard to be directly compared with EE works and may not well reflect the model performance in real-world pipeline scenarios. We demonstrate the significant influence of these pitfalls through comprehensive meta-analyses of recent papers and empirical experiments. To avoid these pitfalls, we suggest a series of remedies, including specifying data preprocessing, standardizing outputs, and providing pipeline evaluation results. To help implement these remedies, we develop a consistent evaluation framework OMNIEVENT, which can be obtained from https://github.com/THU-KEG/OmniEvent.

arxiv情報

著者 Hao Peng,Xiaozhi Wang,Feng Yao,Kaisheng Zeng,Lei Hou,Juanzi Li,Zhiyuan Liu,Weixing Shen
発行日 2023-06-15 07:23:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク