Re-examining learning linear functions in context

要約

インコンテキスト学習 (ICL) は、大規模言語モデル (LLM) をさまざまなタスクに簡単に適応させるための強力なパラダイムとして登場しました。
しかし、ICL がどのように機能するかについての私たちの理解は依然として限られています。
一変量線形関数の ICL を調査するために、合成トレーニング データを使用して制御されたセットアップで ICL の単純なモデルを探索します。
私たちは、ゼロからトレーニングした GPT-2 に似たさまざまなトランスフォーマー モデルを実験します。
私たちの発見は、トランスフォーマーが線形回帰のようなアルゴリズム的アプローチを採用してコンテキスト内で一次関数を学習するという一般的な説に疑問を投げかけます。
これらのモデルは、トレーニング分布を超えて一般化することができず、抽象的なタスク構造を推論する能力の根本的な限界を浮き彫りにしています。
私たちの実験により、モデルが何を学習しているのかについて数学的に正確な仮説が提案されました。

要約(オリジナル)

In-context learning (ICL) has emerged as a powerful paradigm for easily adapting Large Language Models (LLMs) to various tasks. However, our understanding of how ICL works remains limited. We explore a simple model of ICL in a controlled setup with synthetic training data to investigate ICL of univariate linear functions. We experiment with a range of GPT-2-like transformer models trained from scratch. Our findings challenge the prevailing narrative that transformers adopt algorithmic approaches like linear regression to learn a linear function in-context. These models fail to generalize beyond their training distribution, highlighting fundamental limitations in their capacity to infer abstract task structures. Our experiments lead us to propose a mathematically precise hypothesis of what the model might be learning.

arxiv情報

著者 Omar Naim,Guilhem Fouilhé,Nicholas Asher
発行日 2024-12-24 09:03:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク