要約
タイトル:ドキュメントレベルの関係抽出における識別能力とロバスト性の統合へ
要約:
– ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内の長距離コンテクストに依存するエンティティペアの関係を予測します。
– DocREは、小さな一部の陽性関係を多数の陰性関係から効果的に区別することが課題です。データセットに注釈のエラーがある場合、この課題はさらに困難になります。
– この研究では、ドキュメントレベルの関係抽出問題の識別能力とロバスト性の統合を目指しています。
– 具体的には、有効な損失関数を設計し、確率的な出力と内部表現の両方に高い識別能力を与えます。
– 多ラベルとロングテール学習の問題に対して、エントロピー最小化と教師あり対比学習を革新的にカスタマイズします。
– ラベルエラーの影響を軽減するために、モデルのロバスト性を強化するための新しい負のラベルサンプリング戦略を取り入れます。
– さらに、注釈エラーが含まれるより現実的なシナリオを模倣するために、2つの新しいデータレジームを導入し、サンプリング戦略を評価します。
– 実験結果は、各コンポーネントの効果を確認し、当社の手法がDocREDデータセット、最近クリーニングされたバージョンのRe-DocRED、および提案されたデータレジームで新しい最高の結果を達成することを示しています。
要約(オリジナル)
Document-level relation extraction (DocRE) predicts relations for entity pairs that rely on long-range context-dependent reasoning in a document. As a typical multi-label classification problem, DocRE faces the challenge of effectively distinguishing a small set of positive relations from the majority of negative ones. This challenge becomes even more difficult to overcome when there exists a significant number of annotation errors in the dataset. In this work, we aim to achieve better integration of both the discriminability and robustness for the DocRE problem. Specifically, we first design an effective loss function to endow high discriminability to both probabilistic outputs and internal representations. We innovatively customize entropy minimization and supervised contrastive learning for the challenging multi-label and long-tailed learning problems. To ameliorate the impact of label errors, we equipped our method with a novel negative label sampling strategy to strengthen the model robustness. In addition, we introduce two new data regimes to mimic more realistic scenarios with annotation errors and evaluate our sampling strategy. Experimental results verify the effectiveness of each component and show that our method achieves new state-of-the-art results on the DocRED dataset, its recently cleaned version, Re-DocRED, and the proposed data regimes.
arxiv情報
| 著者 | Jia Guo,Stanley Kok,Lidong Bing |
| 発行日 | 2023-04-03 09:11:18+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI