Consistency Guided Knowledge Retrieval and Denoising in LLMs for Zero-shot Document-level Relation Triplet Extraction

要約

文書レベルの関係トリプレット抽出 (DocRTE) は、意味論的な関係を持つエンティティを文書から同時に抽出することを目的とした情報システムの基本的なタスクです。
既存の手法は、完全にラベル付けされた大量のデータに大きく依存しています。
ただし、新しく出現した関係のデータを収集して注釈を付けるには、時間と労力がかかります。
ChatGPT や LLaMA などの最近の高度なラージ言語モデル (LLM) は、優れた長文生成機能を備えており、新しいリレーションを持つ自動ラベル付けされたドキュメントを取得するための代替アプローチを探求するきっかけとなっています。
この論文では、GenRDK と呼ばれる、LLM からの知識の取得とノイズ除去によってラベル付きデータを生成する、Zero-shot Document-level Relation Triplet Extraction (ZeroDocRTE) フレームワークを提案します。
具体的には、ChatGPT がラベル付きの長いテキスト データを段階的に生成するように導く検索チェーン プロンプトを提案します。
合成データの品質を向上させるために、ドキュメント間の知識の一貫性に基づいたノイズ除去戦略を提案します。
ノイズ除去された合成データを活用して、文書レベルの関係トリプレットを抽出するために LLaMA2-13B-Chat を微調整します。
2 つの公開データセットに対して、ゼロショットのドキュメントレベルの関係とトリプレット抽出の両方の実験を実行します。
実験結果は、GenRDK フレームワークが強力なベースラインを上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

Document-level Relation Triplet Extraction (DocRTE) is a fundamental task in information systems that aims to simultaneously extract entities with semantic relations from a document. Existing methods heavily rely on a substantial amount of fully labeled data. However, collecting and annotating data for newly emerging relations is time-consuming and labor-intensive. Recent advanced Large Language Models (LLMs), such as ChatGPT and LLaMA, exhibit impressive long-text generation capabilities, inspiring us to explore an alternative approach for obtaining auto-labeled documents with new relations. In this paper, we propose a Zero-shot Document-level Relation Triplet Extraction (ZeroDocRTE) framework, which generates labeled data by retrieval and denoising knowledge from LLMs, called GenRDK. Specifically, we propose a chain-of-retrieval prompt to guide ChatGPT to generate labeled long-text data step by step. To improve the quality of synthetic data, we propose a denoising strategy based on the consistency of cross-document knowledge. Leveraging our denoised synthetic data, we proceed to fine-tune the LLaMA2-13B-Chat for extracting document-level relation triplets. We perform experiments for both zero-shot document-level relation and triplet extraction on two public datasets. The experimental results illustrate that our GenRDK framework outperforms strong baselines.

arxiv情報

著者 Qi Sun,Kun Huang,Xiaocui Yang,Rong Tong,Kun Zhang,Soujanya Poria
発行日 2024-01-24 17:04:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク