要約
少数ショットやゼロショットのテキスト分類は、限られたラベル付きサンプルや、ラベル付きサンプルが全くない新規クラスからのサンプルを認識することを目的としている。一般的な手法では、見たクラスから見たことのないクラスへの知識の伝達によって有望な性能を示しているが、以下のような制約がある。 (1) クラス間の本質的な非類似性により、見たクラスから学んだ特徴を見たことのないクラスへ変換することが困難で非効率的である。(2)通常、稀にしかラベル付けされない新しいサンプルは、特に複雑なシナリオの場合、モデルがソース分布からターゲット分布に適応するのに十分な監視信号を提供できない。上記の問題を緩和するために、我々は少数ショットとゼロショットのテキスト分類のためのシンプルで効果的な戦略を提案する。我々は、モデルを見たクラスの制約から解放することで、見たクラスで学習する必要なく、見たことのないカテゴリを予測できるようにすることを目指す。具体的には、より関連性の高い未見のカテゴリ知識をマイニングするために、事前に訓練された大規模な言語モデルを利用して擬似的な新規サンプルを生成し、最も代表的なものをカテゴリアンカーとして選択する。その後、マルチクラス分類タスクをバイナリ分類タスクに変換し、クエリとアンカーのペアの類似性を予測に利用することで、限られた監視信号を十分に活用する。広く利用されている6つの公開データセットを用いた広範な実験により、我々の提案手法が、見たクラスサンプルを用いなくとも、数ショットタスクやゼロショットタスクにおいて、他の強力なベースラインを大幅に上回ることができることが示される。
要約(オリジナル)
Few-shot and zero-shot text classification aim to recognize samples from novel classes with limited labeled samples or no labeled samples at all. While prevailing methods have shown promising performance via transferring knowledge from seen classes to unseen classes, they are still limited by (1) Inherent dissimilarities among classes make the transformation of features learned from seen classes to unseen classes both difficult and inefficient. (2) Rare labeled novel samples usually cannot provide enough supervision signals to enable the model to adjust from the source distribution to the target distribution, especially for complicated scenarios. To alleviate the above issues, we propose a simple and effective strategy for few-shot and zero-shot text classification. We aim to liberate the model from the confines of seen classes, thereby enabling it to predict unseen categories without the necessity of training on seen classes. Specifically, for mining more related unseen category knowledge, we utilize a large pre-trained language model to generate pseudo novel samples, and select the most representative ones as category anchors. After that, we convert the multi-class classification task into a binary classification task and use the similarities of query-anchor pairs for prediction to fully leverage the limited supervision signals. Extensive experiments on six widely used public datasets show that our proposed method can outperform other strong baselines significantly in few-shot and zero-shot tasks, even without using any seen class samples.
arxiv情報
著者 | Han Liu,Siyang Zhao,Xiaotong Zhang,Feng Zhang,Wei Wang,Fenglong Ma,Hongyang Chen,Hong Yu,Xianchao Zhang |
発行日 | 2024-05-06 15:38:32+00:00 |
arxivサイト | arxiv_id(pdf) |