Transformers are Minimax Optimal Nonparametric In-Context Learners

要約

大規模な言語モデルのインコンテキスト学習 (ICL) は、わずか数個の実証例から新しいタスクを学習する驚くほど効果的な方法であることが証明されています。
本稿では統計学習理論の観点からICLの有効性を検討する。
ディープ ニューラル ネットワークと 1 つの線形アテンション層で構成される変換器の近似および汎化誤差境界を開発します。この変換は、Besov 空間や区分的 $\gamma$-smooth クラスを含む一般関数空間からサンプリングされたノンパラメトリック回帰タスクで事前学習されています。
十分にトレーニングされた変換器は、事前トレーニング中に最も関連性の高い基底表現をエンコードすることで、コンテキスト内のミニマックス最適推定リスクを達成し、さらには改善できることを示します。
私たちの分析は高次元データまたは逐次データにまで及び、\emph{事前学習} と \emph{インコンテキスト} の汎化ギャップを区別します。
さらに、メタ学習者に対する情報理論的な下限を確立します。
タスクの数とコンテキスト内の例の両方。
これらの発見は、ICL におけるタスクの多様性と表現学習の役割に​​光を当てます。

要約(オリジナル)

In-context learning (ICL) of large language models has proven to be a surprisingly effective method of learning a new task from only a few demonstrative examples. In this paper, we study the efficacy of ICL from the viewpoint of statistical learning theory. We develop approximation and generalization error bounds for a transformer composed of a deep neural network and one linear attention layer, pretrained on nonparametric regression tasks sampled from general function spaces including the Besov space and piecewise $\gamma$-smooth class. We show that sufficiently trained transformers can achieve — and even improve upon — the minimax optimal estimation risk in context by encoding the most relevant basis representations during pretraining. Our analysis extends to high-dimensional or sequential data and distinguishes the \emph{pretraining} and \emph{in-context} generalization gaps. Furthermore, we establish information-theoretic lower bounds for meta-learners w.r.t. both the number of tasks and in-context examples. These findings shed light on the roles of task diversity and representation learning for ICL.

arxiv情報

著者 Juno Kim,Tai Nakamaki,Taiji Suzuki
発行日 2024-10-02 16:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク