要約
生成大規模言語モデル (LLM) は、テキスト生成の汎用性のおかげで、少数ショット学習およびゼロショット学習の主流の選択肢となっています。
ただし、多くのユーザーは、分類タスクを自動化するだけの場合には、生成 LLM の広範な機能を必要としません。
より小規模な BERT のようなモデルは、汎用タスクを学習することもできます。これにより、微調整を必要とせずにあらゆるテキスト分類タスクを実行したり (ゼロショット分類)、少数の例だけで新しいタスクを学習したり (少数ショット)、生成型モデルよりも効率が大幅に向上します。
LLM。
この論文では、(1) 自然言語推論 (NLI) を、生成 LLM の命令の微調整と同様の原則に従う普遍的な分類タスクとして使用する方法について説明し、(2) 再利用可能な Jupyter ノートブックを使用したステップバイステップのガイドを提供します。
ユニバーサル分類器を構築し、(3) 389 の多様なクラスを持つ 33 のデータセットでトレーニングされた結果のユニバーサル分類器を共有します。
私たちが共有するコードの一部は、2023 年 12 月の時点で Hugging Face Hub 経由で 5,500 万回以上ダウンロードされている古いゼロショット分類器のトレーニングに使用されています。新しい分類器は、ゼロショットのパフォーマンスを 9.4% 向上させます。
要約(オリジナル)
Generative Large Language Models (LLMs) have become the mainstream choice for fewshot and zeroshot learning thanks to the universality of text generation. Many users, however, do not need the broad capabilities of generative LLMs when they only want to automate a classification task. Smaller BERT-like models can also learn universal tasks, which allow them to do any text classification task without requiring fine-tuning (zeroshot classification) or to learn new tasks with only a few examples (fewshot), while being significantly more efficient than generative LLMs. This paper (1) explains how Natural Language Inference (NLI) can be used as a universal classification task that follows similar principles as instruction fine-tuning of generative LLMs, (2) provides a step-by-step guide with reusable Jupyter notebooks for building a universal classifier, and (3) shares the resulting universal classifier that is trained on 33 datasets with 389 diverse classes. Parts of the code we share has been used to train our older zeroshot classifiers that have been downloaded more than 55 million times via the Hugging Face Hub as of December 2023. Our new classifier improves zeroshot performance by 9.4%.
arxiv情報
著者 | Moritz Laurer,Wouter van Atteveldt,Andreu Casas,Kasper Welbers |
発行日 | 2024-03-22 17:12:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google