HistRED: A Historical Document-Level Relation Extraction Dataset

要約

関係抽出 (RE) タスクはさまざまな分野で広範に応用されているにもかかわらず、数百年、数千年にわたる有望なデータを含む歴史的背景についてはほとんど調査されていません。
歴史的RE研究を促進するために、Yeonhaengnokから構築されたHistREDを紹介します。
『ヨンヘンノク』は、もともと中国の古典である漢字で書かれ、後に韓国語に翻訳された記録集です。
HistRED は、韓国語と漢字のテキストに対して RE を実行できるように、バイリンガルの注釈を提供します。
さらに、HistRED は、文レベルから文書レベルまで、長さの異なるさまざまな自己完結型サブテキストをサポートし、研究者が RE モデルの堅牢性を評価するための多様なコンテキスト設定をサポートします。
私たちのデータセットの有用性を実証するために、韓国語と漢字の両方のコンテキストを活用してエンティティ間の関係を予測するバイリンガル RE モデルを提案します。
私たちのモデルは、HistRED の単一言語ベースラインよりも優れたパフォーマンスを示し、複数の言語コンテキストを採用することで RE 予測が補完されることが示されています。
データセットは、CC BY-NC-ND 4.0 ライセンスに基づいて、https://huggingface.co/datasets/Soyoung/HistRED で公開されています。

要約(オリジナル)

Despite the extensive applications of relation extraction (RE) tasks in various domains, little has been explored in the historical context, which contains promising data across hundreds and thousands of years. To promote the historical RE research, we present HistRED constructed from Yeonhaengnok. Yeonhaengnok is a collection of records originally written in Hanja, the classical Chinese writing, which has later been translated into Korean. HistRED provides bilingual annotations such that RE can be performed on Korean and Hanja texts. In addition, HistRED supports various self-contained subtexts with different lengths, from a sentence level to a document level, supporting diverse context settings for researchers to evaluate the robustness of their RE models. To demonstrate the usefulness of our dataset, we propose a bilingual RE model that leverages both Korean and Hanja contexts to predict relations between entities. Our model outperforms monolingual baselines on HistRED, showing that employing multiple language contexts supplements the RE predictions. The dataset is publicly available at: https://huggingface.co/datasets/Soyoung/HistRED under CC BY-NC-ND 4.0 license.

arxiv情報

著者 Soyoung Yang,Minseok Choi,Youngwoo Cho,Jaegul Choo
発行日 2023-07-10 00:24:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク