Explicit, Implicit, and Scattered: Revisiting Event Extraction to Capture Complex Arguments

要約

先行研究では、イベント固有の引数の抽出をスパン抽出問題として定式化しており、そこではイベント引数は明示的である–すなわち、文書内のテキストの連続したスパンであると仮定されている。本研究では、既存のEEフレームワークではモデル化できない2つの主要な引数タイプを導入することで、イベント抽出(EE)のこの定義を再検討する。第一に、暗黙的な引数とは、テキスト中に明示的に言及されていないが、文脈を通して推測可能なイベント引数である。第二に、散在的引数とは、テキスト中に散在する情報から構成される事象引数である。これらの2つの引数は、適切なイベントモデリングに必要な情報を引き出すために非常に重要である。 明示的、暗黙的、および散在的な引数の抽出をサポートするために、我々はオンライン健康談話から7,464の引数アノテーションを含む新しいデータセット、DiscourseEEを開発した。特に、51.2%が暗黙的、17.4%が散在的であり、DiscourseEEは複雑なイベント抽出のためのユニークなコーパスである。さらに、複雑な引数タイプの抽出を容易にするために、引数抽出をテキスト生成問題として定式化する。最新のモデルの包括的な評価を提供し、生成的イベント抽出における重要な未解決の課題を強調する。我々のデータとコードベースは、https://omar-sharif03.github.io/DiscourseEE。

要約(オリジナル)

Prior works formulate the extraction of event-specific arguments as a span extraction problem, where event arguments are explicit — i.e. assumed to be contiguous spans of text in a document. In this study, we revisit this definition of Event Extraction (EE) by introducing two key argument types that cannot be modeled by existing EE frameworks. First, implicit arguments are event arguments which are not explicitly mentioned in the text, but can be inferred through context. Second, scattered arguments are event arguments that are composed of information scattered throughout the text. These two argument types are crucial to elicit the full breadth of information required for proper event modeling. To support the extraction of explicit, implicit, and scattered arguments, we develop a novel dataset, DiscourseEE, which includes 7,464 argument annotations from online health discourse. Notably, 51.2% of the arguments are implicit, and 17.4% are scattered, making DiscourseEE a unique corpus for complex event extraction. Additionally, we formulate argument extraction as a text generation problem to facilitate the extraction of complex argument types. We provide a comprehensive evaluation of state-of-the-art models and highlight critical open challenges in generative event extraction. Our data and codebase are available at https://omar-sharif03.github.io/DiscourseEE.

arxiv情報

著者 Omar Sharif,Joseph Gatto,Madhusudan Basak,Sarah M. Preum
発行日 2024-10-04 16:54:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク