How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression?

要約

さまざまなタスクで事前トレーニングされたトランスフォーマーは、優れたコンテキスト内学習 (ICL) 機能を示し、モデル パラメーターを調整せずに、入力コンテキストのみに基づいて目に見えないタスクを解決できます。
この論文では、最も単純なセットアップの 1 つである ICL を研究します。つまり、ガウス事前分布を使用した線形回帰のための線形パラメータ化された単層線形アテンション モデルの事前トレーニングです。
アテンション モデルの事前トレーニングに限界がある統計的タスクの複雑さを確立し、効果的な事前トレーニングには少数の独立したタスクのみが必要であることを示します。
さらに、固定コンテキスト長の下で目に見えないタスクに対してほぼベイズ最適リスクを達成することにより、事前学習済みモデルがベイズ最適アルゴリズム、つまり最適に調整されたリッジ回帰に厳密に一致することを証明します。
これらの理論的発見は、以前の実験研究を補完し、ICL の統計的基礎に光を当てます。

要約(オリジナル)

Transformers pretrained on diverse tasks exhibit remarkable in-context learning (ICL) capabilities, enabling them to solve unseen tasks solely based on input contexts without adjusting model parameters. In this paper, we study ICL in one of its simplest setups: pretraining a linearly parameterized single-layer linear attention model for linear regression with a Gaussian prior. We establish a statistical task complexity bound for the attention model pretraining, showing that effective pretraining only requires a small number of independent tasks. Furthermore, we prove that the pretrained model closely matches the Bayes optimal algorithm, i.e., optimally tuned ridge regression, by achieving nearly Bayes optimal risk on unseen tasks under a fixed context length. These theoretical findings complement prior experimental research and shed light on the statistical foundations of ICL.

arxiv情報

著者 Jingfeng Wu,Difan Zou,Zixiang Chen,Vladimir Braverman,Quanquan Gu,Peter L. Bartlett
発行日 2023-10-12 15:01:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク