How does Multi-Task Training Affect Transformer In-Context Capabilities? Investigations with Function Classes

要約

大規模言語モデル(LLM)は最近、テキストとして提供される数少ない例に基づいて未知のタスクを実行する並外れた能力を示している。最近の研究では、ICLを駆動するメカニズムを理解することが試みられているが、これらのモデルが複数のタスクに汎化する動機付けとなる学習戦略を探求したものはほとんどない。汎化モデルのためのマルチタスク学習(MTL)は、転移学習の可能性を提供する有望な方向性であり、より単純な関連タスクから大規模なパラメータ化モデルを学習することを可能にする。本研究では、MTLとICLを組み合わせて、分布外の例に対して頑健でありながらタスクを効率的に学習するモデルを構築することを検討する。ICLモデルがより高いデータ効率と安定した収束を達成できるようにする、いくつかの効果的なカリキュラム学習戦略を提案する。我々の実験により、ICLモデルは、先行タスクを混ぜながら徐々に難しいタスクを学習することで、効果的に難しいタスクを学習できることが明らかになった。我々のコードとモデルは https://github.com/harmonbhasin/curriculum_learning_icl で利用可能である。

要約(オリジナル)

Large language models (LLM) have recently shown the extraordinary ability to perform unseen tasks based on few-shot examples provided as text, also known as in-context learning (ICL). While recent works have attempted to understand the mechanisms driving ICL, few have explored training strategies that incentivize these models to generalize to multiple tasks. Multi-task learning (MTL) for generalist models is a promising direction that offers transfer learning potential, enabling large parameterized models to be trained from simpler, related tasks. In this work, we investigate the combination of MTL with ICL to build models that efficiently learn tasks while being robust to out-of-distribution examples. We propose several effective curriculum learning strategies that allow ICL models to achieve higher data efficiency and more stable convergence. Our experiments reveal that ICL models can effectively learn difficult tasks by training on progressively harder tasks while mixing in prior tasks, denoted as mixed curriculum in this work. Our code and models are available at https://github.com/harmonbhasin/curriculum_learning_icl .

arxiv情報

著者 Harmon Bhasin,Timothy Ossowski,Yiqiao Zhong,Junjie Hu
発行日 2024-04-04 16:15:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク