要約
少数ショット シーケンス ラベリングは、少数のラベル付きサンプルのみに基づいて新しいクラスを識別することを目的としています。
既存の方法は、主にメトリクス学習に基づいてトークンレベルまたはスパンレベルのラベル付けモデルを設計することによって、データ不足の問題を解決します。
ただし、これらのメソッドは単一の粒度 (つまり、トークン レベルまたはスパン レベル) でのみトレーニングされ、対応する粒度にいくつかの弱点があります。
この論文では、まずトークンとスパンレベルの監視を統合し、少数ショットシーケンスのラベリングのための一貫性のあるデュアルアダプティブプロトティピカル(CDAP)ネットワークを提案します。
CDAP には、異なる粒度で共同トレーニングされたトークン レベルとスパン レベルのネットワークが含まれています。
2 つのネットワークの出力を調整するために、ネットワークが相互に学習できるように一貫した損失をさらに提案します。
推論段階では、最初に予測確率を調整し、次に最大の確率で重複しないスパンを貪欲に選択する、一貫した貪欲推論アルゴリズムを提案します。
広範な実験により、私たちのモデルが 3 つのベンチマーク データセットで新しい最先端の結果を達成することが示されました。
要約(オリジナル)
Few-shot sequence labeling aims to identify novel classes based on only a few labeled samples. Existing methods solve the data scarcity problem mainly by designing token-level or span-level labeling models based on metric learning. However, these methods are only trained at a single granularity (i.e., either token level or span level) and have some weaknesses of the corresponding granularity. In this paper, we first unify token and span level supervisions and propose a Consistent Dual Adaptive Prototypical (CDAP) network for few-shot sequence labeling. CDAP contains the token-level and span-level networks, jointly trained at different granularities. To align the outputs of two networks, we further propose a consistent loss to enable them to learn from each other. During the inference phase, we propose a consistent greedy inference algorithm that first adjusts the predicted probability and then greedily selects non-overlapping spans with maximum probability. Extensive experiments show that our model achieves new state-of-the-art results on three benchmark datasets.
arxiv情報
著者 | Zifeng Cheng,Qingyu Zhou,Zhiwei Jiang,Xuemin Zhao,Yunbo Cao,Qing Gu |
発行日 | 2023-07-16 04:50:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google