要約
タイトル:補助データを探索・利用することによるfew-shot学習の改善
要約:
– Few-shot学習は、実世界の多くの応用分野で価値がありますが、少数のラベル付きデータポイントに過剰適合せずに汎化可能なモデルを学習することは難しいです。
– 本研究では、Few-shot Learning with Auxiliary Data(FLAD)に焦点を当て、少数のラベル付きデータポイントに対応するために補助データを利用するトレーニングパラダイムを探求しました。
– 以前の研究では、補助データとターゲットデータを自動的に混合する方法が提案されていますが、これらの方法は補助データセットの数に比例してスケールするため、実用的ではありません。
– 本研究では、FLADを多腕バンディット設定に中心とする探索・活用のジレンマに関連付け、補助データセットの数に依存しない計算複雑度のアルゴリズムを導出しました。これにより、従来の方法より100倍以上の補助データセットにスケールできるようになりました。
– EXP3-FLADおよびUCB1-FLADの2つのアルゴリズムを提案し、探索または活用のいずれかしか行わない従来のFLAD方法と比較し、探索と活用の組み合わせが重要であることを発見しました。
– 実験を通じて、提案手法が従来のFLAD手法よりも4%優れ、1750億パラメータのGPT-3を上回る最初の30億パラメータの言語モデルを達成できることが分かりました。
– これらの結果から、より効率的なFLADの混合方法の発見がfew-shot学習の汎化能力を大幅に改善するための可能な道であることが示唆されます。
要約(オリジナル)
Few-shot learning is valuable in many real-world applications, but learning a generalizable model without overfitting to the few labeled datapoints is challenging. In this work, we focus on Few-shot Learning with Auxiliary Data (FLAD), a training paradigm that assumes access to auxiliary data during few-shot learning in hopes of improving generalization. Previous works have proposed automated methods for mixing auxiliary and target data, but these methods typically scale linearly (or worse) with the number of auxiliary datasets, limiting their practicality. In this work we relate FLAD to the explore-exploit dilemma that is central to the multi-armed bandit setting and derive algorithms whose computational complexity is independent of the number of auxiliary datasets, allowing us to scale to 100x more auxiliary datasets than prior methods. We propose two algorithms — EXP3-FLAD and UCB1-FLAD — and compare them with prior FLAD methods that either explore or exploit, finding that the combination of exploration and exploitation is crucial. Through extensive experimentation we find that our methods outperform all pre-existing FLAD methods by 4% and lead to the first 3 billion parameter language models that outperform the 175 billion parameter GPT-3. Overall, our work suggests that the discovery of better, more efficient mixing strategies for FLAD may provide a viable path towards substantially improving generalization in few-shot learning.
arxiv情報
| 著者 | Alon Albalak,Colin Raffel,William Yang Wang |
| 発行日 | 2023-05-04 02:09:56+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI