要約
この論文では、コンテキスト内学習 (ICL) をメタ最適化プロセスとして扱うことにより、LLM が ICL サンプルの順序に敏感である理由を説明します。
この理解により、効果的かつ効率的で順序に依存しない ICL の推論アルゴリズムである Batch-ICL の開発につながりました。
標準的な N ショット学習アプローチとは異なり、Batch-ICL は $N$ 回の個別の 1 ショット フォワード計算を採用し、結果として得られるメタ勾配を集計します。
これらの集約されたメタ勾配は、ゼロショット学習に適用されて、最終的な予測が生成されます。
このバッチ処理アプローチにより、LLM は ICL サンプルの順序に依存しなくなります。
広範な実験と分析を通じて、Batch-ICL がサンプル配列のほとんどの順列よりも一貫して優れていることを実証しました。
場合によっては、必要な計算リソースを削減しながら、標準 ICL の最適次数のパフォーマンスを上回ることさえあります。
さらに、メタ最適化の複数の「エポック」を特徴とする Batch-ICL の新しいバリアントを開発します。
このバリアントは、ICL の例の順列を暗黙的に探索し、ICL のパフォーマンスをさらに強化します。
要約(オリジナル)
In this paper, by treating in-context learning (ICL) as a meta-optimization process, we explain why LLMs are sensitive to the order of ICL examples. This understanding leads us to the development of Batch-ICL, an effective, efficient, and order-agnostic inference algorithm for ICL. Differing from the standard N-shot learning approach, Batch-ICL employs $N$ separate 1-shot forward computations and aggregates the resulting meta-gradients. These aggregated meta-gradients are then applied to a zero-shot learning to generate the final prediction. This batch processing approach renders the LLM agnostic to the order of ICL examples. Through extensive experiments and analysis, we demonstrate that Batch-ICL consistently outperforms most permutations of example sequences. In some cases, it even exceeds the performance of the optimal order for standard ICL, all while reducing the computational resources required. Furthermore, we develop a novel variant of Batch-ICL featuring multiple ‘epochs’ of meta-optimization. This variant implicitly explores permutations of ICL examples, further enhancing ICL performance.
arxiv情報
著者 | Kaiyi Zhang,Ang Lv,Yuhan Chen,Hansen Ha,Tao Xu,Rui Yan |
発行日 | 2024-01-12 09:31:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google