GEGA: Graph Convolutional Networks and Evidence Retrieval Guided Attention for Enhanced Document-level Relation Extraction

要約

文書レベルの関係抽出 (DocRE) は、非構造化文書テキストからエンティティー間の関係を抽出することを目的としています。
文レベルの関係抽出と比較して、より広範なテキスト コンテキストからのより複雑な意味の理解を必要とします。
現在、一部の研究では証拠文内の論理ルールを利用して DocRE のパフォーマンスを向上させています。
ただし、証拠文が提供されていないデータでは、研究者は証拠検索(ER)を通じて文書全体の証拠文のリストを取得することがよくあります。
したがって、DocRE には 2 つの課題があります。第 1 に、証拠とエンティティのペアの関連性が弱いことです。
第二に、長距離の複数エンティティ間の複雑な相互関係の抽出が不十分です。
これらの課題を克服するために、私たちは DocRE の新しいモデル GEGA を提案します。
このモデルは、グラフ ニューラル ネットワークを利用して複数の重み行列を構築し、証拠となる文への注意の割り当てを導きます。
また、ER を強化するためにマルチスケール表現集約も採用しています。
その後、最も効率的な証拠情報を統合して、モデルに対して完全に教師付きのトレーニング プロセスと弱く教師付きのトレーニング プロセスの両方を実装します。
私たちは、広く使用されている 3 つのベンチマーク データセット、DocRED、Re-DocRED、および Revisit-DocRED で GEGA モデルを評価します。
実験結果は、私たちのモデルが既存の SOTA モデルと比較して包括的な改善を達成したことを示しています。

要約(オリジナル)

Document-level relation extraction (DocRE) aims to extract relations between entities from unstructured document text. Compared to sentence-level relation extraction, it requires more complex semantic understanding from a broader text context. Currently, some studies are utilizing logical rules within evidence sentences to enhance the performance of DocRE. However, in the data without provided evidence sentences, researchers often obtain a list of evidence sentences for the entire document through evidence retrieval (ER). Therefore, DocRE suffers from two challenges: firstly, the relevance between evidence and entity pairs is weak; secondly, there is insufficient extraction of complex cross-relations between long-distance multi-entities. To overcome these challenges, we propose GEGA, a novel model for DocRE. The model leverages graph neural networks to construct multiple weight matrices, guiding attention allocation to evidence sentences. It also employs multi-scale representation aggregation to enhance ER. Subsequently, we integrate the most efficient evidence information to implement both fully supervised and weakly supervised training processes for the model. We evaluate the GEGA model on three widely used benchmark datasets: DocRED, Re-DocRED, and Revisit-DocRED. The experimental results indicate that our model has achieved comprehensive improvements compared to the existing SOTA model.

arxiv情報

著者 Yanxu Mao,Peipei Liu,Tiehan Cui
発行日 2024-07-31 07:15:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク