Semi-automatic Data Enhancement for Document-Level Relation Extraction with Distant Supervision from Large Language Models

要約

長いコンテキストから関係を抽出することを目的とした文書レベルの関係抽出 (DocRE) は、きめの細かい構造理解を達成し、解釈可能な文書表現を生成する上で重要な課題です。
ChatGPT などの大規模言語モデル (LLM) から生まれたコンテキスト内学習機能の最近の進歩に触発され、最小限の人的労力で DocRE 用の自動アノテーション方法を設計することを目指しています。
残念ながら、事前定義された詳細な関係タイプが多数存在し、LLM が制御されていないため、標準的なインコンテキスト学習はドキュメント レベルの関係抽出には実行できません。
この問題に取り組むために、大規模言語モデル (LLM) と自然言語推論 (NLI) モジュールを統合して関係トリプルを生成し、それによって文書レベルの関係データセットを強化する方法を提案します。
DocGNRE として知られる強化されたデータセットを導入することで、アプローチの有効性を実証します。このデータセットは、多数のロングテール関係タイプの再アノテーションに優れています。
私たちは、私たちの方法がドメイン固有の関係タイプの定義においてより広範な応用の可能性を秘めており、一般化された言語の意味理解を進める上で具体的な利点を提供すると確信しています。

要約(オリジナル)

Document-level Relation Extraction (DocRE), which aims to extract relations from a long context, is a critical challenge in achieving fine-grained structural comprehension and generating interpretable document representations. Inspired by recent advances in in-context learning capabilities emergent from large language models (LLMs), such as ChatGPT, we aim to design an automated annotation method for DocRE with minimum human effort. Unfortunately, vanilla in-context learning is infeasible for document-level relation extraction due to the plenty of predefined fine-grained relation types and the uncontrolled generations of LLMs. To tackle this issue, we propose a method integrating a large language model (LLM) and a natural language inference (NLI) module to generate relation triples, thereby augmenting document-level relation datasets. We demonstrate the effectiveness of our approach by introducing an enhanced dataset known as DocGNRE, which excels in re-annotating numerous long-tail relation types. We are confident that our method holds the potential for broader applications in domain-specific relation type definitions and offers tangible benefits in advancing generalized language semantic comprehension.

arxiv情報

著者 Junpeng Li,Zixia Jia,Zilong Zheng
発行日 2023-11-13 13:10:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク