要約
文書レベルの関係抽出 (RE) の目標は、複数の文にまたがるエンティティ間の関係を識別することです。
最近、ドキュメントレベルの RE における不完全なラベル付けがますます注目されており、この問題に取り組むためにポジティブ非ラベル学習などの手法を使用した研究もありますが、まだ改善の余地が多くあります。
これを動機として、私たちはポジティブ拡張およびポジティブミックスアップポジティブラベルなしメトリクス学習フレームワーク (P3M) を提案します。
具体的には、文書レベルの RE を計量学習問題として定式化します。
私たちは、エンティティ ペアの埋め込みとそれに対応するリレーションの埋め込みとの間の距離を近づける一方、非クラス リレーションの埋め込みからは遠ざけることを目指しています。
さらに、ラベルなしのポジティブ学習をこの損失目標に適応させます。
モデルの一般化可能性を向上させるために、ドロップアウトを使用して陽性サンプルを増加し、陽性-非クラス混合法を提案します。
広範な実験により、P3M は不完全なラベル付けを含むドキュメントレベルの RE で F1 スコアを約 4 ~ 10 ポイント改善し、完全にラベル付けされたシナリオで最先端の結果を達成することが示されています。
さらに、P3M は、不完全なラベル付きシナリオにおける事前推定バイアスに対するロバスト性も実証しています。
要約(オリジナル)
The goal of document-level relation extraction (RE) is to identify relations between entities that span multiple sentences. Recently, incomplete labeling in document-level RE has received increasing attention, and some studies have used methods such as positive-unlabeled learning to tackle this issue, but there is still a lot of room for improvement. Motivated by this, we propose a positive-augmentation and positive-mixup positive-unlabeled metric learning framework (P3M). Specifically, we formulate document-level RE as a metric learning problem. We aim to pull the distance closer between entity pair embedding and their corresponding relation embedding, while pushing it farther away from the none-class relation embedding. Additionally, we adapt the positive-unlabeled learning to this loss objective. In order to improve the generalizability of the model, we use dropout to augment positive samples and propose a positive-none-class mixup method. Extensive experiments show that P3M improves the F1 score by approximately 4-10 points in document-level RE with incomplete labeling, and achieves state-of-the-art results in fully labeled scenarios. Furthermore, P3M has also demonstrated robustness to prior estimation bias in incomplete labeled scenarios.
arxiv情報
著者 | Ye Wang,Huazheng Pan,Tao Zhang,Wen Wu,Wenxin Hu |
発行日 | 2024-01-25 10:26:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google