Pretraining task diversity and the emergence of non-Bayesian in-context learning for regression

要約

事前トレーニングされたトランスフォーマーは、インコンテキスト学習 (ICL) の優れた能力を示します。重みを更新せずに、プロンプトで提供されるほんの数例からタスクを学習できます。
これは根本的な疑問を引き起こします: ICL は、事前トレーニング中に見られたタスクとは大きく異なる $\textit{new}$ タスクを根本的に解決できるでしょうか?
この疑問を調査するために、事前トレーニング データセット内のタスクの多様性を変化させながら、線形回帰における ICL のパフォーマンスを調べます。
私たちは、ICL の出現に対する $\textit{タスク多様性の閾値}$ を経験的に示します。
このしきい値を下回ると、事前学習済み変換器は目に見えない回帰タスクを解決できず、代わりに $\textit{非多様な事前学習タスク分布}$ を事前分布とするベイズ推定器のように動作します。
このしきい値を超えると、トランスフォーマーはこの推定値を大幅に上回ります。
その動作はリッジ回帰の動作と一致しており、事前トレーニング中に見られなかったものを含む、$\textit{すべてのタスク}$ に対する事前ガウス分布に対応します。
したがって、閾値を超えるタスク多様性を持つデータで事前学習すると、トランスフォーマ $\textit{can}$ はコンテキスト内で根本的に新しいタスクを最適に解決します。
重要なのは、この機能は、事前トレーニング分布を事前に使用したベイズ最適推定量からの逸脱にかかっています。
この研究では、正則化、モデルの能力、タスク構造の効果も調査しており、具体的な例として、ICL の出現において、データやモデルのスケールと並んでタスクの多様性が重要な役割を果たしていることを強調しています。
コードは https://github.com/mansheej/icl-task-diversity で入手できます。

要約(オリジナル)

Pretrained transformers exhibit the remarkable ability of in-context learning (ICL): they can learn tasks from just a few examples provided in the prompt without updating any weights. This raises a foundational question: can ICL solve fundamentally $\textit{new}$ tasks that are very different from those seen during pretraining? To probe this question, we examine ICL’s performance on linear regression while varying the diversity of tasks in the pretraining dataset. We empirically demonstrate a $\textit{task diversity threshold}$ for the emergence of ICL. Below this threshold, the pretrained transformer cannot solve unseen regression tasks, instead behaving like a Bayesian estimator with the $\textit{non-diverse pretraining task distribution}$ as the prior. Beyond this threshold, the transformer significantly outperforms this estimator; its behavior aligns with that of ridge regression, corresponding to a Gaussian prior over $\textit{all tasks}$, including those not seen during pretraining. Thus, when pretrained on data with task diversity greater than the threshold, transformers $\textit{can}$ optimally solve fundamentally new tasks in-context. Importantly, this capability hinges on it deviating from the Bayes optimal estimator with the pretraining distribution as the prior. This study also explores the effect of regularization, model capacity and task structure and underscores, in a concrete example, the critical role of task diversity, alongside data and model scale, in the emergence of ICL. Code is available at https://github.com/mansheej/icl-task-diversity.

arxiv情報

著者 Allan Raventós,Mansheej Paul,Feng Chen,Surya Ganguli
発行日 2023-11-08 18:12:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク