Iterative Document-level Information Extraction via Imitation Learning

要約

タイトル:模倣学習を用いた反復的なドキュメントレベル情報抽出

要約:

– 新しい反復的な抽出モデル「IterX」を提案。
– ドキュメント内の複雑な関係やテンプレート(名前付きスロットからテキスト範囲へのマッピングを表すN-tuple)を抽出するために使用される。
– 文書には、任意のタイプのテンプレートのインスタンスが0個以上含まれる可能性があり、テンプレート抽出のタスクは、文書内のテンプレートを特定し、各テンプレートのスロット値を抽出することを意味する。
– 模倣学習アプローチは、問題をマルコフ決定過程(MDP)として表現し、事前に定義されたテンプレート順序を使用して抽出器をトレーニングする必要性を軽減する。
– SciREXの4-ary関係抽出とMUC-4のテンプレート抽出の2つの確立されたベンチマークで最先端の結果を収め、新しいBETTER Granularタスクでは強力なベースラインを提供している。

要約(オリジナル)

We present a novel iterative extraction model, IterX, for extracting complex relations, or templates (i.e., N-tuples representing a mapping from named slots to spans of text) within a document. Documents may feature zero or more instances of a template of any given type, and the task of template extraction entails identifying the templates in a document and extracting each template’s slot values. Our imitation learning approach casts the problem as a Markov decision process (MDP), and relieves the need to use predefined template orders to train an extractor. It leads to state-of-the-art results on two established benchmarks — 4-ary relation extraction on SciREX and template extraction on MUC-4 — as well as a strong baseline on the new BETTER Granular task.

arxiv情報

著者 Yunmo Chen,William Gantt,Weiwei Gu,Tongfei Chen,Aaron Steven White,Benjamin Van Durme
発行日 2023-05-01 04:17:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク