On the generalization of language models from in-context learning and finetuning: a controlled study

要約

大規模な言語モデルはエキサイティングな能力を示しますが、微妙に微小な一般化を示すことができます。微妙に狭い一般化は、訓練されている関係の単純な逆転から、訓練された情報から作られる可能性のある論理的控除を欠いていることまで、驚くほど狭い一般化を示すことができます。
微調整から一般化するこれらの障害は、これらのモデルの実用的なアプリケーションを妨げる可能性があります。
ただし、言語モデルのコンテキスト内学習は、さまざまな帰納的バイアスを示しており、これらのケースの一部でよりよく一般化できます。
ここでは、コンテキスト内と微調整ベースの学習の間の一般化のこれらの違いを探ります。
そのために、いくつかの新しいデータセットを構築して、モデルの微調ューデータから一般化するモデルの能力を評価および改善しました。
データセットは、データセットの知識を事前化中の知識から分離し、一般化のクリーンなテストを作成するために構築されています。
これらのデータセット内の情報の制御されたサブセットに、コンテキストまたは微調整を通じて、事前に処理された大きなモデルを公開し、さまざまなタイプの一般化を必要とするテストセットでのパフォーマンスを評価します。
全体的に、データが一致する設定では、コンテキスト内の学習が微調整よりも柔軟に一般化できることがわかります(ただし、微調整がより大きな知識構造に組み込まれた逆転に一般化できる場合など、以前の調査結果の資格もあります)。
これらの調査結果に基づいて、微調整による一般化の改善を可能にする方法を提案します。
この方法は、データセットやその他のベンチマークのさまざまな分割にわたって一般化を改善することを示しています。
私たちの結果は、言語モデルのさまざまな学習モードの帰納的バイアスを理解し、そのパフォーマンスを実際に改善することに影響を及ぼします。

要約(オリジナル)

Large language models exhibit exciting capabilities, yet can show surprisingly narrow generalization from finetuning — from failing to generalize to simple reversals of relations they are trained on, to missing logical deductions that can be made from trained information. These failures to generalize from fine-tuning can hinder practical application of these models. However, language models’ in-context learning shows different inductive biases, and can generalize better in some of these cases. Here, we explore these differences in generalization between in-context- and fine-tuning-based learning. To do so, we constructed several novel datasets to evaluate and improve models’ ability to generalize from finetuning data. The datasets are constructed to isolate the knowledge in the dataset from that in pretraining, to create clean tests of generalization. We expose pretrained large models to controlled subsets of the information in these datasets — either in context, or through fine-tuning — and evaluate their performance on test sets that require various types of generalization. We find overall that in data-matched settings, in-context learning can generalize more flexibly than fine-tuning (though we also find some qualifications of prior findings, such as cases when fine-tuning can generalize to reversals embedded in a larger structure of knowledge). We build on these findings to propose a method to enable improved generalization from fine-tuning: adding in-context inferences to finetuning data. We show that this method improves generalization across various splits of our datasets and other benchmarks. Our results have implications for understanding the inductive biases of different modes of learning in language models, and practically improving their performance.

arxiv情報

著者 Andrew K. Lampinen,Arslan Chaudhry,Stephanie C. Y. Chan,Cody Wild,Diane Wan,Alex Ku,Jörg Bornschein,Razvan Pascanu,Murray Shanahan,James L. McClelland
発行日 2025-05-01 17:02:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク