Explaining Emergent In-Context Learning as Kernel Regression

要約

大規模言語モデル (LLM) は、転移学習におけるパラダイム シフトを開始しました。
古典的な事前トレーニング、その後の微調整手順とは対照的に、下流予測タスクに LLM を使用するには、既存のモデル パラメーターを追加したり更新したりすることなく、インコンテキスト サンプルとして知られるいくつかのデモンストレーションを提供するだけで済みます。
LLM のこのインコンテキスト学習 (ICL) 機能は興味深いものですが、事前トレーニングされた LLM がどのようにしてそのような機能を獲得するのかはまだ完全には理解されていません。
この論文では、コンテキスト内の例に直面したときに、LLM が内部表現を使用してカーネル回帰をシミュレートできるという 1 つの仮説を提案することにより、トランスフォーマーベースの言語モデルが一般言語コーパスでの事前トレーニング後にコンテキスト内学習を達成できる理由を調査します。

より具体的には、まず、コンテキスト内のプロンプトに関するベイズ推論が、カーネル回帰 $\hat y = \sum_i y_i K(x, x_i)/\sum_i K(x, x_i)$ として漸近的に理解できることを証明します。
-コンテキストデモンストレーションが増加します。
次に、言語モデルのコンテキスト内での動作を経験的に調査します。
ICL 中に、LLM のアテンション機能と隠れた機能がカーネル回帰の動作と一致することがわかりました。
最後に、私たちの理論は、ICL 分野で観察される複数の現象についての洞察を提供します。つまり、テスト サンプルに類似した実証サンプルを取得することがなぜ役立つのか、ICL のパフォーマンスが出力形式に影響される理由、および配布中のサンプルと代表的なサンプルを選択することで ICL の精度が向上する理由です。

要約(オリジナル)

Large language models (LLMs) have initiated a paradigm shift in transfer learning. In contrast to the classic pretraining-then-finetuning procedure, in order to use LLMs for downstream prediction tasks, one only needs to provide a few demonstrations, known as in-context examples, without adding more or updating existing model parameters. This in-context learning (ICL) capability of LLMs is intriguing, and it is not yet fully understood how pretrained LLMs acquire such capabilities. In this paper, we investigate the reason why a transformer-based language model can accomplish in-context learning after pre-training on a general language corpus by proposing one hypothesis that LLMs can simulate kernel regression with internal representations when faced with in-context examples. More concretely, we first prove that Bayesian inference on in-context prompts can be asymptotically understood as kernel regression $\hat y = \sum_i y_i K(x, x_i)/\sum_i K(x, x_i)$ as the number of in-context demonstrations grows. Then, we empirically investigate the in-context behaviors of language models. We find that during ICL, the attention and hidden features in LLMs match the behaviors of a kernel regression. Finally, our theory provides insights into multiple phenomena observed in the ICL field: why retrieving demonstrative samples similar to test samples can help, why ICL performance is sensitive to the output formats, and why ICL accuracy benefits from selecting in-distribution and representative samples.

arxiv情報

著者 Chi Han,Ziqi Wang,Han Zhao,Heng Ji
発行日 2023-10-05 16:04:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク