Many-Shot In-Context Learning

要約

大規模言語モデル (LLM) は、重みの更新を行わずに、推論時にコンテキスト内で提供されるいくつかの例から学習する、少数ショットのコンテキスト内学習 (ICL) に優れています。
新たに拡張されたコンテキスト ウィンドウにより、数百または数千の例、つまりメニーショット方式で ICL を調査できるようになりました。
少数ショットから多数ショットに移行すると、さまざまな生成タスクと識別タスクにわたって大幅なパフォーマンスの向上が観察されます。
マルチショット ICL は有望ではありますが、人間が作成したサンプルの量がボトルネックになる可能性があります。
この制限を軽減するために、強化 ICL と教師なし ICL という 2 つの新しい設定を検討します。
強化された ICL は、人間の例の代わりに、モデルによって生成された思考連鎖の理論的根拠を使用します。
教師なし ICL では、プロンプトから根拠が完全に削除され、ドメイン固有の質問のみがモデルに表示されます。
強化 ICL と教師なし ICL の両方が、マルチショット方式、特に複雑な推論タスクにおいて非常に効果的であることがわかりました。
最後に、少数ショット学習とは異なり、多数ショット学習は事前トレーニングのバイアスを無効にするのに効果的であり、数値入力で高次元関数を学習でき、微調整に匹敵するパフォーマンスを発揮することを示します。
また、推論コストはメニーショット方式では直線的に増加し、フロンティア LLM はさまざまな程度でメニーショット ICL から恩恵を受けることもわかりました。
私たちの分析では、下流の ICL パフォーマンスの指標としての次のトークンの予測損失の限界も明らかになりました。

要約(オリジナル)

Large language models (LLMs) excel at few-shot in-context learning (ICL) — learning from a few examples provided in context at inference, without any weight updates. Newly expanded context windows allow us to investigate ICL with hundreds or thousands of examples — the many-shot regime. Going from few-shot to many-shot, we observe significant performance gains across a wide variety of generative and discriminative tasks. While promising, many-shot ICL can be bottlenecked by the available amount of human-generated examples. To mitigate this limitation, we explore two new settings: Reinforced and Unsupervised ICL. Reinforced ICL uses model-generated chain-of-thought rationales in place of human examples. Unsupervised ICL removes rationales from the prompt altogether, and prompts the model only with domain-specific questions. We find that both Reinforced and Unsupervised ICL can be quite effective in the many-shot regime, particularly on complex reasoning tasks. Finally, we demonstrate that, unlike few-shot learning, many-shot learning is effective at overriding pretraining biases, can learn high-dimensional functions with numerical inputs, and performs comparably to fine-tuning. We also find that inference cost increases linearly in the many-shot regime, and frontier LLMs benefit from many-shot ICL to varying degrees. Our analysis also reveals the limitations of next-token prediction loss as an indicator of downstream ICL performance.

arxiv情報

著者 Rishabh Agarwal,Avi Singh,Lei M. Zhang,Bernd Bohnet,Luis Rosias,Stephanie Chan,Biao Zhang,Ankesh Anand,Zaheer Abbas,Azade Nova,John D. Co-Reyes,Eric Chu,Feryal Behbahani,Aleksandra Faust,Hugo Larochelle
発行日 2024-10-17 17:45:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク