要約
大規模なコーパスで事前トレーニングされた大規模言語モデル (LLM) は、多くの NLP タスクで優れた数回の学習能力を実証しました。
NLP タスクをテキストからテキストへの生成タスクに再キャストすることは、生成 LLM に解決を求めることができるようにするための一般的な方法です。
ただし、生成 LLM モデルを使用してドキュメント レベルの関係抽出 (DocRE) タスクを実行することは、DocRE の構造化された出力形式のため依然として困難であり、プレーン テキストへの変換が複雑です。
少数のショットのサンプルで入手できる情報が限られており、迅速な指示があるため、文書内の言及されたエンティティの関係抽出においてさらなる困難と課題が生じます。
このペーパーでは、構造化出力を自然言語表現ではなくグラフ スタイルのトリプレットとして表現し、DocRE タスクに生成 LLM を活用します。
私たちのアプローチである Graph-DPEP フレームワークは、自然言語で提示されるトリプレット説明思考の背後にある推論に基づいています。
このフレームワークでは、最初に、すべての関係タイプを区別する負担を軽減するために、型空間分解を使用してプロンプト上で LLM からの生成を実行する「分解プラグ」メソッドを導入します。
2 番目に、生成を調整し、見落とされたクエリ エンティティ ペアを識別するために検証ツールを使用します。
3 番目に、欠落しているクエリ ペアに関連付けられたサブグラフに埋め込まれた推論思考を活用して、欠落の問題に対処することにより、タイプ リスト全体に生成を再適用する「アンサンブル プレイ」を開発します。
既存のプロンプト手法や代替言語モデル (LLM) との広範な比較を通じて、当社のフレームワークは実験で公開されているベンチマークで優れたパフォーマンスを実証します。
要約(オリジナル)
Large language models (LLMs) pre-trained on massive corpora have demonstrated impressive few-shot learning capability on many NLP tasks. Recasting an NLP task into a text-to-text generation task is a common practice so that generative LLMs can be prompted to resolve it. However, performing document-level relation extraction (DocRE) tasks with generative LLM models is still challenging due to the structured output format of DocRE, which complicates the conversion to plain text. Limited information available in few-shot samples and prompt instructions induce further difficulties and challenges in relation extraction for mentioned entities in a document. In this paper, we represent the structured output as a graph-style triplet rather than natural language expressions and leverage generative LLMs for the DocRE task. Our approach, the Graph-DPEP framework is grounded in the reasoning behind triplet explanation thoughts presented in natural language. In this framework, we first introduce a “decomposed-plug’ method for performing the generation from LLMs over prompts with type-space decomposition to alleviate the burden of distinguishing all relation types. Second, we employ a verifier for calibrating the generation and identifying overlooked query entity pairs. Third, we develop ‘ensemble-play’, reapplying generation on the entire type list by leveraging the reasoning thoughts embedded in a sub-graph associated with the missing query pair to address the missingness issue. Through extensive comparisons with existing prompt techniques and alternative Language Models (LLMs), our framework demonstrates superior performance on publicly available benchmarks in experiments.
arxiv情報
著者 | Tao Zhang,Ning Yan,Masood Mortazavi,Hoang H. Nguyen,Zhongfen Deng,Philip S. Yu |
発行日 | 2024-11-05 07:12:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google