DocRED-FE: A Document-Level Fine-Grained Entity And Relation Extraction Dataset

要約

ジョイント エンティティと関係の抽出 (JERE) は、情報抽出における最も重要なタスクの 1 つです。
ただし、ほとんどの既存の作業は、文レベルの粗粒度の JERE に焦点を当てており、現実世界のシナリオでは制限があります。
このホワイト ペーパーでは、大規模なドキュメント レベルのきめの細かい JERE データセット DocRED-FE を構築します。これは、きめの細かいエンティティ タイプで DocRED を改善します。
具体的には、11 の粗粒度タイプと 119 の細粒度タイプを含む階層エンティティ タイプ スキーマを再設計し、このスキーマに従って手動で DocRED に再アノテーションを付けます。
(1) DocRED-FE は既存の JERE モデルに挑戦的です。
(2) 私たちのきめの細かいエンティティ タイプは、関係の分類を促進します。
私たちは、https://github.com/PKU-TANGENT/DOCRED-FE で公開されているベースラインの命令とコードを含む DocRED-FE を作成します。

要約(オリジナル)

Joint entity and relation extraction (JERE) is one of the most important tasks in information extraction. However, most existing works focus on sentence-level coarse-grained JERE, which have limitations in real-world scenarios. In this paper, we construct a large-scale document-level fine-grained JERE dataset DocRED-FE, which improves DocRED with Fine-Grained Entity Type. Specifically, we redesign a hierarchical entity type schema including 11 coarse-grained types and 119 fine-grained types, and then re-annotate DocRED manually according to this schema. Through comprehensive experiments we find that: (1) DocRED-FE is challenging to existing JERE models; (2) Our fine-grained entity types promote relation classification. We make DocRED-FE with instruction and the code for our baselines publicly available at https://github.com/PKU-TANGENT/DOCRED-FE.

arxiv情報

著者 Hongbo Wang,Weimin Xiong,Yifan Song,Dawei Zhu,Yu Xia,Sujian Li
発行日 2023-03-21 09:03:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク