Class-Adaptive Self-Training for Relation Extraction with Incompletely Annotated Training Data

要約

関係抽出 (RE) は、文章や文書から関係を抽出することを目的としています。
既存の関係抽出モデルは通常、教師あり機械学習に依存しています。
しかし、最近の研究では、多くの RE データセットの注釈が不完全であることが示されました。
これは、有効なリレーションに誤って「no_relation」という注釈が付けられる、偽陰性問題として知られています。
このようなデータを使用してトレーニングされたモデルは、推論段階で必ず同様の間違いを犯します。
自己トレーニングは偽陰性の問題を軽減するのに効果的であることが証明されています。
しかし、従来の自己トレーニングは確証バイアスに弱く、少数派のクラスではパフォーマンスが低くなります。
この制限を克服するために、私たちは新しいクラス適応型リサンプリング自己トレーニング フレームワークを提案しました。
具体的には、精度と再現率スコアに基づいて各クラスの疑似ラベルを再サンプリングしました。
私たちの再サンプリング戦略では、精度が高く再現率が低いクラスの擬似ラベルが優先され、精度を大幅に損なうことなく全体の再現率が向上しました。
私たちは文書レベルおよび生物医学関係抽出データセットで実験を実施しました。その結果、トレーニング データに注釈が不完全に付加されている場合、私たちが提案した自己トレーニング フレームワークは、Re-DocRED および ChemDisgene データセットに対する既存の競合手法よりも一貫して優れていることがわかりました。
コードは https://github.com/DAMO-NLP-SG/CAST で公開されています。

要約(オリジナル)

Relation extraction (RE) aims to extract relations from sentences and documents. Existing relation extraction models typically rely on supervised machine learning. However, recent studies showed that many RE datasets are incompletely annotated. This is known as the false negative problem in which valid relations are falsely annotated as ‘no_relation’. Models trained with such data inevitably make similar mistakes during the inference stage. Self-training has been proven effective in alleviating the false negative problem. However, traditional self-training is vulnerable to confirmation bias and exhibits poor performance in minority classes. To overcome this limitation, we proposed a novel class-adaptive re-sampling self-training framework. Specifically, we re-sampled the pseudo-labels for each class by precision and recall scores. Our re-sampling strategy favored the pseudo-labels of classes with high precision and low recall, which improved the overall recall without significantly compromising precision. We conducted experiments on document-level and biomedical relation extraction datasets, and the results showed that our proposed self-training framework consistently outperforms existing competitive methods on the Re-DocRED and ChemDisgene datasets when the training data are incompletely annotated. Our code is released at https://github.com/DAMO-NLP-SG/CAST.

arxiv情報

著者 Qingyu Tan,Lu Xu,Lidong Bing,Hwee Tou Ng
発行日 2023-06-16 09:01:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク