要約
文脈内学習(In-Context Learning: ICL)は、大規模言語モデルの汎用性を大幅に拡張し、入力された文脈のみを用いて新しいタスクに適応することを可能にした。このことは、扱いやすい合成ドメインを分析し、ICLの根底にある可能性のある正確なメカニズムを仮定する一連の論文を動機付けた。しかし、多くの場合、シーケンスモデリング的な性質を欠く、比較的明確なセットアップを使用するため、このような研究から報告された洞察がどの程度一般的であるかは不明である。そこで我々は、マルコフ連鎖の有限混合をシミュレートする学習を含む、合成シーケンスモデリング課題を提案する。このタスクで学習したモデルは、ICLに関するほとんどの有名な結果を再現する。この設定を基に、ファジィ検索対推論アプローチとコンテキストのユニグラム統計またはビッググラム統計のいずれかを組み合わせた4つの大まかなアルゴリズムに分解することで、モデルの振る舞いを説明できることを示す。例えば、コンテキストのサイズや学習量を変化させるだけで、どのアルゴリズムがモデルの振る舞いを決定するかが(時には急激に)変化することがわかり、ICLの一過性の性質を説明するメカニズムが明らかになった。この意味で、ICLは、一枚岩の能力ではなく、それぞれが特異性を持つ異なるアルゴリズムの混合物として考えるのが最善であると主張する。このことはまた、ICLについて、あらゆる設定に普遍的に通用するような一般的な主張をすることは不可能であることを示唆している。
要約(オリジナル)
In-Context Learning (ICL) has significantly expanded the general-purpose nature of large language models, allowing them to adapt to novel tasks using merely the inputted context. This has motivated a series of papers that analyze tractable synthetic domains and postulate precise mechanisms that may underlie ICL. However, the use of relatively distinct setups that often lack a sequence modeling nature to them makes it unclear how general the reported insights from such studies are. Motivated by this, we propose a synthetic sequence modeling task that involves learning to simulate a finite mixture of Markov chains. As we show, models trained on this task reproduce most well-known results on ICL, hence offering a unified setting for studying the concept. Building on this setup, we demonstrate we can explain a model’s behavior by decomposing it into four broad algorithms that combine a fuzzy retrieval vs. inference approach with either unigram or bigram statistics of the context. These algorithms engage in a competition dynamics to dominate model behavior, with the precise experimental conditions dictating which algorithm ends up superseding others: e.g., we find merely varying context size or amount of training yields (at times sharp) transitions between which algorithm dictates the model behavior, revealing a mechanism that explains the transient nature of ICL. In this sense, we argue ICL is best thought of as a mixture of different algorithms, each with its own peculiarities, instead of a monolithic capability. This also implies that making general claims about ICL that hold universally across all settings may be infeasible.
arxiv情報
| 著者 | Core Francisco Park,Ekdeep Singh Lubana,Itamar Pres,Hidenori Tanaka |
| 発行日 | 2025-05-02 05:25:53+00:00 |
| arxivサイト | arxiv_id(pdf) |