Uncertainty Guided Label Denoising for Document-level Distant Relation Extraction

要約

文書レベルの関係抽出 (DocRE) は、文書内のエンティティ間の複雑な意味関係を推測することを目的としています。
遠隔監視 (DS) は、自動ラベル付けされた大量のデータを生成できるため、DocRE のパフォーマンスを向上させることができます。
最近の研究では、ノイズ除去前のモデルによって生成された擬似ラベルを利用して、DS データのノイズを低減しています。
ただし、信頼性の低い擬似ラベルは、偽の擬似ラベルを追加したり、正しい DS ラベルを失ったりするなど、新たなノイズをもたらします。
したがって、DS データのノイズを除去するために効果的な擬似ラベルを選択する方法は、文書レベルの遠隔関係抽出において依然として課題です。
この問題に取り組むために、擬似ラベルが信頼できるかどうかを判断するための不確実性推定技術を導入します。
この研究では、不確実性ガイド付きラベルノイズ除去 (UGDRE) を備えたドキュメントレベルの遠隔関係抽出フレームワークを提案します。
具体的には、重複関係を持つ擬似ラベルの信頼性を測定する、新しいインスタンスレベルの不確実性推定手法を提案します。
ロングテール問題をさらに考慮することで、不確実性の高い疑似ラベルをフィルタリングするために、さまざまなタイプの関係に対する動的な不確実性しきい値を設計します。
私たちは 2 つの公開データセットで実験を実施します。
私たちのフレームワークは、RE-DocRED データセットで 1.91 F1 および 2.28 Ign F1 という強力なベースラインを上回っています。

要約(オリジナル)

Document-level relation extraction (DocRE) aims to infer complex semantic relations among entities in a document. Distant supervision (DS) is able to generate massive auto-labeled data, which can improve DocRE performance. Recent works leverage pseudo labels generated by the pre-denoising model to reduce noise in DS data. However, unreliable pseudo labels bring new noise, e.g., adding false pseudo labels and losing correct DS labels. Therefore, how to select effective pseudo labels to denoise DS data is still a challenge in document-level distant relation extraction. To tackle this issue, we introduce uncertainty estimation technology to determine whether pseudo labels can be trusted. In this work, we propose a Document-level distant Relation Extraction framework with Uncertainty Guided label denoising, UGDRE. Specifically, we propose a novel instance-level uncertainty estimation method, which measures the reliability of the pseudo labels with overlapping relations. By further considering the long-tail problem, we design dynamic uncertainty thresholds for different types of relations to filter high-uncertainty pseudo labels. We conduct experiments on two public datasets. Our framework outperforms strong baselines by 1.91 F1 and 2.28 Ign F1 on the RE-DocRED dataset.

arxiv情報

著者 Qi Sun,Kun Huang,Xiaocui Yang,Pengfei Hong,Kun Zhang,Soujanya Poria
発行日 2023-05-18 15:15:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク