VaeDiff-DocRE: End-to-end Data Augmentation Framework for Document-level Relation Extraction

要約

ドキュメント レベルの関係抽出 (DocRE) は、ドキュメント内のエンティティ ペア間の関係を識別することを目的としています。
ただし、既存の手法のほとんどは均一なラベル分布を前提としているため、現実世界の不均衡なデータセットでは最適なパフォーマンスが得られません。
この課題に取り組むために、私たちは生成モデルを使用して埋め込み空間からのデータを強化する新しいデータ拡張アプローチを提案します。
私たちの方法では、変分オートエンコーダー (VAE) アーキテクチャを活用して、エンティティ ペア表現によって形成されるすべての関係ごとの分布をキャプチャし、過小表現された関係のデータを強化します。
DocRE のマルチラベルの性質をよりよく捉えるために、VAE の潜在空間を拡散モデルでパラメータ化します。
さらに、提案された VAE ベースの拡張モジュールを DocRE システムに統合するための階層型トレーニング フレームワークを導入します。
2 つのベンチマーク データセットでの実験では、私たちの手法が最先端のモデルよりも優れており、DocRE のロングテール分布の問題に効果的に対処していることが実証されました。

要約(オリジナル)

Document-level Relation Extraction (DocRE) aims to identify relationships between entity pairs within a document. However, most existing methods assume a uniform label distribution, resulting in suboptimal performance on real-world, imbalanced datasets. To tackle this challenge, we propose a novel data augmentation approach using generative models to enhance data from the embedding space. Our method leverages the Variational Autoencoder (VAE) architecture to capture all relation-wise distributions formed by entity pair representations and augment data for underrepresented relations. To better capture the multi-label nature of DocRE, we parameterize the VAE’s latent space with a Diffusion Model. Additionally, we introduce a hierarchical training framework to integrate the proposed VAE-based augmentation module into DocRE systems. Experiments on two benchmark datasets demonstrate that our method outperforms state-of-the-art models, effectively addressing the long-tail distribution problem in DocRE.

arxiv情報

著者 Khai Phan Tran,Wen Hua,Xue Li
発行日 2025-01-13 10:43:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク