要約
ドメイン内の教師あり設定および少数ショット設定での固有表現認識は、NLP コミュニティで広く議論され、大きな進歩を遂げました。
ただし、実際のシナリオではより一般的なタスクであるクロスドメイン NER は、ほとんどの NER メソッドにとって依然として課題となっています。
この分野におけるこれまでの研究活動は、ソースドメインからターゲットドメインへのラベル情報の関連付けなどの知識伝達に主に焦点を当てていましたが、ラベルの競合の問題に注目した研究はほとんどありませんでした。
この研究では、拡張されたクロスドメインの名前付きエンティティ認識のためにこの問題に対処するために、ラベルのアライメントと再割り当てのアプローチ、つまり LAR を導入します。これには、ソース ドメインとターゲット ドメイン間のラベルのアライメントと、型推論のためのラベルの再割り当てという 2 つの主要な手順が含まれます。
ラベルの再割り当てのプロセスは、ChatGPT などの高度な大規模言語モデルと統合することで大幅に強化できます。
私たちは、教師ありシナリオとゼロショット シナリオの両方を含む NER データセットに対して広範な実験を実施しています。
経験的な実験結果は、SOTA メソッドと比較して、教師ありゼロショット領域外設定の下で、私たちのメソッドが顕著なパフォーマンスを発揮することを示しています。
要約(オリジナル)
Named entity recognition on the in-domain supervised and few-shot settings have been extensively discussed in the NLP community and made significant progress. However, cross-domain NER, a more common task in practical scenarios, still poses a challenge for most NER methods. Previous research efforts in that area primarily focus on knowledge transfer such as correlate label information from source to target domains but few works pay attention to the problem of label conflict. In this study, we introduce a label alignment and reassignment approach, namely LAR, to address this issue for enhanced cross-domain named entity recognition, which includes two core procedures: label alignment between source and target domains and label reassignment for type inference. The process of label reassignment can significantly be enhanced by integrating with an advanced large-scale language model such as ChatGPT. We conduct an extensive range of experiments on NER datasets involving both supervised and zero-shot scenarios. Empirical experimental results demonstrate the validation of our method with remarkable performance under the supervised and zero-shot out-of-domain settings compared to SOTA methods.
arxiv情報
著者 | Ke Bao,Chonghuan Yang |
発行日 | 2024-07-24 15:13:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google