要約
即時学習は、事前トレーニングされた言語モデルを活用するための新しいパラダイムであり、多くのタスクで大きな成功を収めています。
NER タスクでプロンプト学習を採用するために、エンティティ タイプを予測するためにスパンを列挙することによってテンプレートを設定するか、エンティティを見つけるためにタイプ固有のプロンプトを構築するという 2 種類の方法が、一対の対称的な観点から検討されました。
ただし、これらの方法では、時間のオーバーヘッドと計算コストがかかる複数ラウンドのプロンプト方法が必要なだけでなく、実際のシナリオに適用するのが難しい精巧なプロンプト テンプレートも必要になります。
この論文では、エンティティの検索とエンティティのタイピングをプロンプト学習に統合し、位置スロットとタイプ スロットを備えたデュアルスロット マルチプロンプト テンプレートを設計して、それぞれ検索とタイピングを促します。
複数のプロンプトをモデルに同時に入力でき、モデルはスロットでの並列予測によってすべてのエンティティを抽出します。
トレーニング中にスロットにラベルを割り当てるために、プロンプトとグラウンド トゥルース エンティティ間の拡張二部グラフ マッチングを使用する動的なテンプレート充填メカニズムを設計します。
私たちは、リソースが豊富なフラットおよびネストされた NER データセット、リソースの少ないドメイン内およびクロスドメイン データセットなど、さまざまな設定で実験を実施します。
実験結果は、提案されたモデルが、特にクロスドメインの少数ショット設定で大幅なパフォーマンスの向上を達成し、最先端のモデルを平均で +7.7% 上回るパフォーマンスを示していることを示しています。
要約(オリジナル)
Prompt learning is a new paradigm for utilizing pre-trained language models and has achieved great success in many tasks. To adopt prompt learning in the NER task, two kinds of methods have been explored from a pair of symmetric perspectives, populating the template by enumerating spans to predict their entity types or constructing type-specific prompts to locate entities. However, these methods not only require a multi-round prompting manner with a high time overhead and computational cost, but also require elaborate prompt templates, that are difficult to apply in practical scenarios. In this paper, we unify entity locating and entity typing into prompt learning, and design a dual-slot multi-prompt template with the position slot and type slot to prompt locating and typing respectively. Multiple prompts can be input to the model simultaneously, and then the model extracts all entities by parallel predictions on the slots. To assign labels for the slots during training, we design a dynamic template filling mechanism that uses the extended bipartite graph matching between prompts and the ground-truth entities. We conduct experiments in various settings, including resource-rich flat and nested NER datasets and low-resource in-domain and cross-domain datasets. Experimental results show that the proposed model achieves a significant performance improvement, especially in the cross-domain few-shot setting, which outperforms the state-of-the-art model by +7.7% on average.
arxiv情報
著者 | Yongliang Shen,Zeqi Tan,Shuhui Wu,Wenqi Zhang,Rongsheng Zhang,Yadong Xi,Weiming Lu,Yueting Zhuang |
発行日 | 2023-05-26 17:16:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google