A Mechanism for Sample-Efficient In-Context Learning for Sparse Retrieval Tasks

要約

私たちは、大規模な言語モデルによって示される \textit{in-context learning} (ICL) の現象を研究します。この現象では、明示的なパラメーターの最適化を行わずに、ラベル付きの少数の例が与えられた場合に、言語モデルが新しい学習タスクに適応できます。
私たちの目標は、事前トレーニング プロセスと下流タスクに関する合理的な仮定の下で、事前トレーニングされたトランスフォーマー モデルがどのように ICL を実行できるかを説明することです。
私たちは、変圧器が次のことを達成できるメカニズムを仮定します。
潜在的に曖昧な区切り文字を使用してプロンプトに変換されたサンプルのシーケンス、(b) プロンプトをサンプルとラベルに正しく分割、(c) データから \textit{スパース線形回帰子} 仮説を推論、そして最後に (d)
この仮説を指定されたテスト例に適用し、予測されたラベルを返します。
この手順全体がトランスフォーマー メカニズムを使用して実装可能であることを確立し、この学習フレームワークのサンプルの複雑性を保証します。
私たちの経験的発見はセグメンテーションの課題を検証し、ステップ (c) で仮定したメカニズムと観察されたアテンション マップとの間の対応を示します。

要約(オリジナル)

We study the phenomenon of \textit{in-context learning} (ICL) exhibited by large language models, where they can adapt to a new learning task, given a handful of labeled examples, without any explicit parameter optimization. Our goal is to explain how a pre-trained transformer model is able to perform ICL under reasonable assumptions on the pre-training process and the downstream tasks. We posit a mechanism whereby a transformer can achieve the following: (a) receive an i.i.d. sequence of examples which have been converted into a prompt using potentially-ambiguous delimiters, (b) correctly segment the prompt into examples and labels, (c) infer from the data a \textit{sparse linear regressor} hypothesis, and finally (d) apply this hypothesis on the given test example and return a predicted label. We establish that this entire procedure is implementable using the transformer mechanism, and we give sample complexity guarantees for this learning framework. Our empirical findings validate the challenge of segmentation, and we show a correspondence between our posited mechanisms and observed attention maps for step (c).

arxiv情報

著者 Jacob Abernethy,Alekh Agarwal,Teodor V. Marinov,Manfred K. Warmuth
発行日 2023-05-26 15:49:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク