Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data

要約

しかし、少数のラベル付きデータポイントに過剰適合することなく汎化可能なモデルを学習することは困難である。本研究では、汎化を向上させることを期待して、数ショット学習中に補助データにアクセスすることを想定した学習パラダイムである、補助データを用いた数ショット学習(Few-shot Learning with Auxiliary Data: FLAD)に注目する。これまでの研究では、補助データとターゲットデータを混合する自動化手法が提案されているが、これらの手法は通常、補助データセットの数に応じて線形にスケールするため(あるいはそれ以上)、実用性に限界がある。本研究では、FLADをマルチアームドバンディットの中心的な設定であるexploit-exploitのジレンマに関連付け、計算量が補助データセット数に依存しないアルゴリズムを導出する。我々は、EXP3-FLADとUCB1-FLADの2つのアルゴリズムを提案し、探索か搾取のどちらかを行う先行FLAD手法と比較し、探索と搾取の組み合わせが重要であることを発見した。広範な実験を通して、我々の手法は既存の全てのFLAD手法を4%上回り、1750億パラメータのGPT-3を上回る最初の30億パラメータ言語モデルにつながることを発見した。全体として、我々の研究は、FLADのより優れた、より効率的な混合戦略の発見が、少数ショット学習における汎化を大幅に改善するための実行可能な道を提供する可能性があることを示唆している。

要約(オリジナル)

Few-shot learning is valuable in many real-world applications, but learning a generalizable model without overfitting to the few labeled datapoints is challenging. In this work, we focus on Few-shot Learning with Auxiliary Data (FLAD), a training paradigm that assumes access to auxiliary data during few-shot learning in hopes of improving generalization. Previous works have proposed automated methods for mixing auxiliary and target data, but these methods typically scale linearly (or worse) with the number of auxiliary datasets, limiting their practicality. In this work we relate FLAD to the explore-exploit dilemma that is central to the multi-armed bandit setting and derive algorithms whose computational complexity is independent of the number of auxiliary datasets, allowing us to scale to 100x more auxiliary datasets than prior methods. We propose two algorithms — EXP3-FLAD and UCB1-FLAD — and compare them with prior FLAD methods that either explore or exploit, finding that the combination of exploration and exploitation is crucial. Through extensive experimentation we find that our methods outperform all pre-existing FLAD methods by 4% and lead to the first 3 billion parameter language models that outperform the 175 billion parameter GPT-3. Overall, our work suggests that the discovery of better, more efficient mixing strategies for FLAD may provide a viable path towards substantially improving generalization in few-shot learning.

arxiv情報

著者 Alon Albalak,Colin Raffel,William Yang Wang
発行日 2023-10-03 15:50:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク