The Benefits of Label-Description Training for Zero-Shot Text Classification

要約

事前トレーニングされた言語モデルは、下流タスクで特定のラベル セット間を分類するためにトレーニング データから意味論的な知識を転送できるようにすることで、ゼロショット テキスト分類を改善しました。
私たちは、最小限の労力でゼロショット精度をさらに向上させる簡単な方法を提案します。
私たちは、タスクのラベルを記述することを目的とした小さな微調整データセットを厳選します。
テキストにラベルの注釈が付けられた一般的な微調整データとは異なり、私たちのデータは、たとえば、いくつかの関連用語、辞書/百科事典の項目、短いテンプレートを使用して、単に言語でラベルを記述します。
さまざまなトピックとセンチメントのデータセットにわたって、私たちの方法はゼロショットよりも 17 ~ 19% 絶対的に正確です。
また、モデルに分類を促すパターンや、モデルのボキャブラリ内のラベルからトークンへのマッピングなど、ゼロショット分類に必要な選択に対してもより堅牢です。
さらに、私たちのデータは単にラベルを記述しているだけで入力テキストを使用していないため、これを微調整すると、特定のラベル セットの複数のテキスト ドメインで強力に機能するモデルが得られ、複数の設定での数ショットのドメイン外分類よりも改善されます。

要約(オリジナル)

Pretrained language models have improved zero-shot text classification by allowing the transfer of semantic knowledge from the training data in order to classify among specific label sets in downstream tasks. We propose a simple way to further improve zero-shot accuracies with minimal effort. We curate small finetuning datasets intended to describe the labels for a task. Unlike typical finetuning data, which has texts annotated with labels, our data simply describes the labels in language, e.g., using a few related terms, dictionary/encyclopedia entries, and short templates. Across a range of topic and sentiment datasets, our method is more accurate than zero-shot by 17-19% absolute. It is also more robust to choices required for zero-shot classification, such as patterns for prompting the model to classify and mappings from labels to tokens in the model’s vocabulary. Furthermore, since our data merely describes the labels but does not use input texts, finetuning on it yields a model that performs strongly on multiple text domains for a given label set, even improving over few-shot out-of-domain classification in multiple settings.

arxiv情報

著者 Lingyu Gao,Debanjan Ghosh,Kevin Gimpel
発行日 2023-10-23 15:24:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク