Larger language models do in-context learning differently

要約

言語モデルにおけるコンテキスト内学習 (ICL) がセマンティック プライアと入力ラベル マッピングによってどのように影響されるかを研究します。
さまざまなモデル ファミリ (GPT-3、InstructGPT、Codex、PaLM、および Flan-PaLM) にわたって、反転したラベルを持つ ICL と意味的に無関係なラベルを持つ ICL の 2 つのセットアップを調査します。
まず、反転したラベルを使用した ICL の実験は、セマンティック プライアをオーバーライドすることがモデル スケールの創発的な能力であることを示しています。
小さな言語モデルは、コンテキスト内で提示された反転されたラベルを無視するため、主に事前トレーニングからのセマンティック プライアに依存しますが、大規模なモデルは、より強力なセマンティック プライアが保持される可能性があるにもかかわらず、プリリアと矛盾するコンテキスト内のエグザンプラが提示されると、セマンティック プライアをオーバーライドできます。
次に、意味的に無関係なラベル ICL (SUL-ICL) を調べます。この場合、ラベルは入力と意味的に無関係です (たとえば、負/正の代わりに foo/bar)。
-タスクを実行するためのコンテキストの手本。
SUL-ICL を実行する機能も、主にスケールとともに出現し、十分に大きな言語モデルは、SUL-ICL 設定で線形分類を実行することさえできます。
最後に、命令調整されたモデルを評価し、命令調整がセマンティック プライアの使用と入力ラベル マッピングを学習する能力の両方を強化することを発見しましたが、前者のほうが多くなります。

要約(オリジナル)

We study how in-context learning (ICL) in language models is affected by semantic priors versus input-label mappings. We investigate two setups-ICL with flipped labels and ICL with semantically-unrelated labels-across various model families (GPT-3, InstructGPT, Codex, PaLM, and Flan-PaLM). First, experiments on ICL with flipped labels show that overriding semantic priors is an emergent ability of model scale. While small language models ignore flipped labels presented in-context and thus rely primarily on semantic priors from pretraining, large models can override semantic priors when presented with in-context exemplars that contradict priors, despite the stronger semantic priors that larger models may hold. We next study semantically-unrelated label ICL (SUL-ICL), in which labels are semantically unrelated to their inputs (e.g., foo/bar instead of negative/positive), thereby forcing language models to learn the input-label mappings shown in in-context exemplars in order to perform the task. The ability to do SUL-ICL also emerges primarily with scale, and large-enough language models can even perform linear classification in a SUL-ICL setting. Finally, we evaluate instruction-tuned models and find that instruction tuning strengthens both the use of semantic priors and the capacity to learn input-label mappings, but more of the former.

arxiv情報

著者 Jerry Wei,Jason Wei,Yi Tay,Dustin Tran,Albert Webson,Yifeng Lu,Xinyun Chen,Hanxiao Liu,Da Huang,Denny Zhou,Tengyu Ma
発行日 2023-03-08 07:37:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク