Towards Realistic Low-resource Relation Extraction: A Benchmark with Empirical Baseline Study

要約

この論文では、リソースが少ない環境で関係抽出システムを構築するための実証研究を紹介します。
最近の事前トレーニング済み言語モデルに基づいて、低リソース設定でのパフォーマンスを評価するための 3 つのスキームを包括的に調査します。(i) 数ショットのラベル付きデータを使用したさまざまなタイプのプロンプトベースの方法。
(ii) ロングテール分配の問題に対処するための多様なバランス方法。
(iii) よりラベル付けされたドメイン内データを生成するためのデータ拡張テクノロジーと自己トレーニング。
さまざまな言語、ドメイン、コンテキストをカバーする 8 つの関係抽出 (RE) データセットを使用してベンチマークを作成し、提案されたスキームを組み合わせて広範な比較を実行します。
私たちの実験は次のことを示しています。(i) プロンプトベースのチューニングはリソースが少ない RE では有益ですが、特に複数の関係トリプルを含む文をまたがるコンテキストから関係を抽出する場合には、改善の余地がまだ多くあります。
(ii) 分散手法は、ロングテール分布を伴う再生可能エネルギーにとって必ずしも有用であるとは限りません。
(iii) データ拡張は既存のベースラインを補完し、大幅なパフォーマンス向上をもたらす可能性がありますが、自己トレーニングでは低リソース RE への進歩を一貫して達成できない可能性があります。
コードとデータセットは https://github.com/zjunlp/LREBench にあります。

要約(オリジナル)

This paper presents an empirical study to build relation extraction systems in low-resource settings. Based upon recent pre-trained language models, we comprehensively investigate three schemes to evaluate the performance in low-resource settings: (i) different types of prompt-based methods with few-shot labeled data; (ii) diverse balancing methods to address the long-tailed distribution issue; (iii) data augmentation technologies and self-training to generate more labeled in-domain data. We create a benchmark with 8 relation extraction (RE) datasets covering different languages, domains and contexts and perform extensive comparisons over the proposed schemes with combinations. Our experiments illustrate: (i) Though prompt-based tuning is beneficial in low-resource RE, there is still much potential for improvement, especially in extracting relations from cross-sentence contexts with multiple relational triples; (ii) Balancing methods are not always helpful for RE with long-tailed distribution; (iii) Data augmentation complements existing baselines and can bring much performance gain, while self-training may not consistently achieve advancement to low-resource RE. Code and datasets are in https://github.com/zjunlp/LREBench.

arxiv情報

著者 Xin Xu,Xiang Chen,Ningyu Zhang,Xin Xie,Xi Chen,Huajun Chen
発行日 2023-09-18 11:16:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク