Revisiting DocRED — Addressing the False Negative Problem in Relation Extraction

要約

DocRED データセットは、ドキュメント レベルの関係抽出 (RE) で最も人気があり、広く使用されているベンチマークの 1 つです。
大規模なアノテーション付きデータセットを実現するために、推奨改訂アノテーション スキームを採用しています。
しかし、DocRED のアノテーションが不完全である、つまり偽陰性サンプルが蔓延していることがわかりました。
DocRED データセットにおける圧倒的な偽陰性問題の原因と影響を分析します。
この欠点に対処するために、欠落した関係トリプルを元の DocRED に追加し戻すことで、DocRED データセット内の 4,053 個の文書に再アノテーションを付けます。
改訂された DocRED データセットを Re-DocRED と名付けます。
私たちは両方のデータセットで最先端のニューラル モデルを使用して広範な実験を実施し、実験結果では、Re-DocRED でトレーニングおよび評価されたモデルが約 13 F1 ポイントのパフォーマンス向上を達成したことを示しています。
さらに、包括的な分析を実施して、さらなる改善の余地がある領域を特定します。
私たちのデータセットは https://github.com/tonytan48/Re-DocRED で公開されています。

要約(オリジナル)

The DocRED dataset is one of the most popular and widely used benchmarks for document-level relation extraction (RE). It adopts a recommend-revise annotation scheme so as to have a large-scale annotated dataset. However, we find that the annotation of DocRED is incomplete, i.e., false negative samples are prevalent. We analyze the causes and effects of the overwhelming false negative problem in the DocRED dataset. To address the shortcoming, we re-annotate 4,053 documents in the DocRED dataset by adding the missed relation triples back to the original DocRED. We name our revised DocRED dataset Re-DocRED. We conduct extensive experiments with state-of-the-art neural models on both datasets, and the experimental results show that the models trained and evaluated on our Re-DocRED achieve performance improvements of around 13 F1 points. Moreover, we conduct a comprehensive analysis to identify the potential areas for further improvement. Our dataset is publicly available at https://github.com/tonytan48/Re-DocRED.

arxiv情報

著者 Qingyu Tan,Lu Xu,Lidong Bing,Hwee Tou Ng,Sharifah Mahani Aljunied
発行日 2023-06-16 05:44:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク