DiVA-DocRE: A Discriminative and Voice-Aware Paradigm for Document-Level Relation Extraction

要約

テキスト理解と生成における大規模な言語モデル(LLM)の顕著な能力は、情報抽出(すなわち)に革命をもたらしました。
そのような進歩の1つは、ドキュメントレベルの関係トリプレット抽出(DOCRTE)です。これは、ドキュメントからエンティティとそのセマンティック関係を抽出することを目的とする情報システムの重要なタスクです。
ただし、既存の方法は、主に文レベル関係のトリプレット抽出(Sentrte)向けに設計されており、通常、限られた関係のセットとトリプレットの事実を単一の文で処理します。
さらに、一部のアプローチでは、関係をプロンプトテンプレートに統合した候補の選択肢として扱い、トリプレットの関係要素を決定する際に非効率的な処理と最適ではないパフォーマンスをもたらします。
これらの制限に対処するために、差別的および音声認識パラダイム歌姫を紹介します。
DIVAには、ドキュメントレベルの関係抽出(Docre)の実行と、関係に基づいてサブジェクトオブジェクトエンティティを識別するという2つのステップのみが含まれます。
追加の処理は必要ありません。トリプレットを直接取得するためにドキュメントを入力するだけです。
この合理化されたプロセスは、トリプレット抽出の現実世界のシナリオをより正確に反映しています。
私たちのイノベーションは、ドドルを差別的なタスクに変えることにあります。そこでは、モデルは各関係と、トリプレット内のアクティブな音声とパッシブ音声のしばしば見過ごされがちな問題に注意を払っています。
再ドックされたデータセットとdredられたデータセットに関する実験は、docrteタスクの最先端の結果を示しています。

要約(オリジナル)

The remarkable capabilities of Large Language Models (LLMs) in text comprehension and generation have revolutionized Information Extraction (IE). One such advancement is in Document-level Relation Triplet Extraction (DocRTE), a critical task in information systems that aims to extract entities and their semantic relationships from documents. However, existing methods are primarily designed for Sentence level Relation Triplet Extraction (SentRTE), which typically handles a limited set of relations and triplet facts within a single sentence. Additionally, some approaches treat relations as candidate choices integrated into prompt templates, resulting in inefficient processing and suboptimal performance when determining the relation elements in triplets. To address these limitations, we introduce a Discriminative and Voice Aware Paradigm DiVA. DiVA involves only two steps: performing document-level relation extraction (DocRE) and then identifying the subject object entities based on the relation. No additional processing is required simply input the document to directly obtain the triplets. This streamlined process more accurately reflects real-world scenarios for triplet extraction. Our innovation lies in transforming DocRE into a discriminative task, where the model pays attention to each relation and to the often overlooked issue of active vs. passive voice within the triplet. Our experiments on the Re-DocRED and DocRED datasets demonstrate state-of-the-art results for the DocRTE task.

arxiv情報

著者 Yiheng Wu,Roman Yangarber,Xian Mao
発行日 2025-04-08 10:43:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク