Document-Level In-Context Few-Shot Relation Extraction via Pre-Trained Language Models

要約

関係抽出の目的は、テキスト文書から構造化された人間の知識を推論することである。(1)名前付き実体を入力として与えるか推論する必要があるため、ノイズが増えること、(2)人間が文書に注釈を付ける必要があること、である。(1)名前付き実体を入力として与えるか、推論する必要があり、これはさらなるノイズをもたらす。我々は、名前付き実体認識と文書への人間による注釈の両方を不要にするという重要な利点を達成する。ファインチューニングに基づく既存の手法とは異なり、我々のフレームワークは柔軟であり、再トレーニングすることなく、新しい関係セットに対して容易に更新することができる。文書レベルの関係抽出のための最大の公開データセットであるDocREDを用いて我々のフレームワークを評価し、我々のフレームワークが最先端の性能を達成することを実証する。最後に、我々のフレームワークが、DocREDの開発セットから得られたオリジナルのラベルよりもはるかに優れた性能を実際に発揮することを示す。我々の知る限り、文書レベルの関係抽出タスクを、文脈に合わせた数発学習のパラダイムとして再定式化したのは我々が初めてである。

要約(オリジナル)

Relation extraction aims at inferring structured human knowledge from textual documents. State-of-the-art methods based on language models commonly have two limitations: (1) they require named entities to be either given as input or infer them, which introduces additional noise, and (2) they require human annotations of documents. As a remedy, we present a novel framework for document-level in-context few-shot relation extraction via pre-trained language models. We achieve crucial benefits in that we eliminate the need for both named entity recognition and human annotation of documents. Unlike existing methods based on fine-tuning, our framework is flexible in that it can be easily updated for a new set of relations without re-training. We evaluate our framework using DocRED, the largest publicly available dataset for document-level relation extraction, and demonstrate that our framework achieves state-of-the-art performance. Finally, we show that our framework actually performs much better than the original labels from the development set of DocRED. To the best of our knowledge, we are the first to reformulate the document-level relation extraction task as a tailored in-context few-shot learning paradigm.

arxiv情報

著者 Yilmazcan Ozyurt,Stefan Feuerriegel,Ce Zhang
発行日 2024-02-02 13:50:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク