More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives

要約

大規模言語モデル (LLM) は、パラメーターの更新を必要とせず、数ショットのインコンテキスト学習 (ICL) に優れています。
ただし、ICL デモンストレーションの数が少数から多数に増加するにつれて、パフォーマンスは頭打ちになり、最終的には低下する傾向があります。
私たちは、この傾向の 2 つの主な原因を特定します。それは、最適ではない負の対数尤度 (NLL) 最適化目標と、増分データ ノイズです。
これらの問題に対処するために、微分学習と利点ベースの再重み付け目標を通じてモデルのパフォーマンスを向上させる新しい最適化手法である DrICL を導入します。
世界的に、DrICL は差別化学習を利用して NLL 目標を最適化し、ゼロショット レベルを上回るメニー ショットのパフォーマンスを保証します。
強化学習からインスピレーションを得た累積的な利点を活用して、ローカルでマルチショット デモンストレーションの重み付けを動的に調整し、一般化を向上させます。
このアプローチにより、モデルはさまざまな数のショットを効果的に処理できるようになり、ノイズの多いデータの影響が軽減されます。
多様なマルチショット分布を持つマルチタスク データセットが不足していることを認識し、私たちはメニーショット ICL ベンチマーク (ICL-50) を開発しました。これは、最大 2 つのシーケンス内で 1 から 350 までのショット数をカバーする 50 のタスクからなる大規模なベンチマークです。
8,000 トークン – 微調整目的。
ICL-50 は、7 つの著名な NLP タスクと 50 の異なるデータセットにわたるマルチショット ICL 戦略の評価を容易にします。
実験結果は、DrICL で強化された LLM が、ドメイン内シナリオとドメイン外シナリオの両方を含むさまざまなタスクにわたるマルチショット設定で大幅な改善を達成することを示しています。
私たちは、マルチショット ICL のさらなる研究を促進することを期待して、コードとベンチマーク データセットをリリースします。

要約(オリジナル)

Large language models (LLMs) excel at few-shot in-context learning (ICL) without requiring parameter updates. However, as the number of ICL demonstrations increases from a few to many, performance tends to plateau and eventually decline. We identify two primary causes for this trend: the suboptimal negative log-likelihood (NLL) optimization objective and the incremental data noise. To address these issues, we introduce DrICL, a novel optimization method that enhances model performance through Differentiated Learning and advantage-based Reweighting objectives. Globally, DrICL utilizes differentiated learning to optimize the NLL objective, ensuring that many-shot performance surpasses zero-shot levels. Locally, it dynamically adjusts the weighting of many-shot demonstrations by leveraging cumulative advantages inspired by reinforcement learning, thereby improving generalization. This approach allows the model to handle varying numbers of shots effectively, mitigating the impact of noisy data. Recognizing the lack of multi-task datasets with diverse many-shot distributions, we develop the Many-Shot ICL Benchmark (ICL-50)-a large-scale benchmark of 50 tasks that cover shot numbers from 1 to 350 within sequences of up to 8,000 tokens-for fine-tuning purposes. ICL-50 facilitates the evaluation of many-shot ICL strategies across seven prominent NLP tasks and 50 distinct datasets. Experimental results demonstrate that LLMs enhanced with DrICL achieve significant improvements in many-shot setups across various tasks, including both in-domain and out-of-domain scenarios. We release the code and benchmark dataset hoping to facilitate further research in many-shot ICL.

arxiv情報

著者 Xiaoqing Zhang,Ang Lv,Yuhan Liu,Flood Sung,Wei Liu,Shuo Shang,Xiuying Chen,Rui Yan
発行日 2025-01-09 02:20:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク