要約
NLP における少数ショット学習への既存のアプローチは、大規模な言語モデルと、分布外データを一般化するためのこれらの微調整に依存しています。
この研究では、「極端な」少数ショット学習に対するシンプルかつ強力なアプローチを提案します。このアプローチでは、入力全体にわたるさまざまなクラスの分布を集合的に捕捉するソフトラベル プロトタイプに基づいて、モデルがクラスあたりわずか 4 つの例にさらされます。
ドメインスペース。
単変量または単純な多変量 (合成) データに関する以前の研究 (Sucholutsky et al., 2021) に触発され、大規模で高次元の現実世界のデータセットに効果的な新しいアプローチを提案します。
私たちはニューラル フレームワーク (DeepSLP) 内でソフトラベル プロトタイプを学習し、それが 31/48 テスト済みのタスクと数ショット設定で優れたパフォーマンスを達成しながら、残りの強力なベースラインのパフォーマンスとほぼ一致することを実験的に実証しました。
私たちは、ラベルごとに非常に少数の例 (4、8、16) からこれまで見たことのない NLP タスクを学習することに焦点を当て、アプローチの有効性についての詳細な分析を示します。
要約(オリジナル)
Existing approaches to few-shot learning in NLP rely on large language models and fine-tuning of these to generalise on out-of-distribution data. In this work, we propose a simple yet powerful approach to ‘extreme’ few-shot learning, wherein models are exposed to as little as 4 examples per class, based on soft-label prototypes that collectively capture the distribution of different classes across the input domain space. Inspired by previous work (Sucholutsky et al., 2021) on univariate or simple multivariate (synthetic) data, we propose a novel approach that is effective on large, high-dimensional and real-world datasets. We learn soft-label prototypes within a neural framework (DeepSLP) and we experimentally demonstrate that it achieves superior performance on 31/48 tested tasks and few-shot settings while closely matching the performance of strong baselines on the rest. We focus on learning previously unseen NLP tasks from very few examples (4, 8, 16) per label and present an in-depth analysis of the effectiveness of our approach.
arxiv情報
著者 | Avyav Kumar Singh,Ekaterina Shutova,Helen Yannakoudakis |
発行日 | 2024-03-14 14:55:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google