The Learnability of In-Context Learning

要約

インコンテキスト学習は、現代の言語モデルが数十億の学習パラメーターにスケーリングされたときに出現した、驚くべき重要な現象です。
大規模な言語モデルの重みを変更することなく、これらのタスクの連結されたトレーニング例を入力に含めるだけで、さまざまな下流の自然言語タスクを実行するように調整できます。
大規模な言語モデルの多くの実用的なアプリケーションにとって破壊的ではありますが、この新しい学習パラダイムは理論的な観点からはよく理解されていません。
このホワイト ペーパーでは、インコンテキスト学習可能性のためのその種の最初の PAC ベースのフレームワークを提案し、それを使用して、インコンテキスト学習セットアップの最初の有限サンプルの複雑さの結果を提供します。
私たちのフレームワークには、関数を事前トレーニング分布に適合させる最初の事前トレーニング段階と、この関数を一定に保ち、下流タスクのトレーニング例を入力に連結する 2 番目のインコンテキスト学習段階が含まれます。
穏やかな仮定の下で、事前トレーニング分布が潜在タスク (自然言語の事前トレーニングでよく考慮されるモデル) の混合である場合、これらのタスクはインコンテキスト学習によって効率的に学習できることを証明するためにフレームワークを使用します。
モデルの重みは変更されておらず、入力はトレーニング前の分布から大幅に逸脱しています。
私たちの理論的分析は、この設定では、コンテキスト内学習は、タスクを学習することよりも、タスクを特定することであることが明らかになりました。これは、一連の最近の経験的発見と一致する結果です。
このホワイト ペーパーで提示されているコンテキスト内学習可能性フレームワークが、この重要な新しい学習パラダイムのより深い理解に向けた将来の進歩を促進することを願っています。

要約(オリジナル)

In-context learning is a surprising and important phenomenon that emerged when modern language models were scaled to billions of learned parameters. Without modifying a large language model’s weights, it can be tuned to perform various downstream natural language tasks simply by including concatenated training examples of these tasks in its input. Though disruptive for many practical applications of large language models, this emergent learning paradigm is not well understood from a theoretical perspective. In this paper, we propose a first-of-its-kind PAC based framework for in-context learnability, and use it to provide the first finite sample complexity results for the in-context learning setup. Our framework includes an initial pretraining phase, which fits a function to the pretraining distribution, and then a second in-context learning phase, which keeps this function constant and concatenates training examples of the downstream task in its input. We use our framework in order to prove that, under mild assumptions, when the pretraining distribution is a mixture of latent tasks (a model often considered for natural language pretraining), these tasks can be efficiently learned via in-context learning, even though the model’s weights are unchanged and the input significantly diverges from the pretraining distribution. Our theoretical analysis reveals that in this setting, in-context learning is more about identifying the task than about learning it, a result which is in line with a series of recent empirical findings. We hope that the in-context learnability framework presented in this paper will facilitate future progress towards a deeper understanding of this important new learning paradigm.

arxiv情報

著者 Noam Wies,Yoav Levine,Amnon Shashua
発行日 2023-03-14 13:28:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク