Revisiting In-Context Learning with Long Context Language Models

要約

インコンテキスト学習 (ICL) は、言語モデルが入力コンテキストで提供された例に基づいて予測を行う手法です。
以前は、コンテキスト ウィンドウのサイズにより、表示できる例の数に制限があったため、最も効果的な例のセットを特定するには例の選択テクニックが重要でした。
しかし、最近のロング コンテキスト言語モデル (LCLM) の出現により、コンテキストに含めることができる例の数が大幅に増加し、マルチショット領域における ICL のパフォーマンスが依然としてサンプル選択方法に影響されるかどうかという重要な疑問が生じています。

これに答えるために、4 つのタスクにわたる 18 のデータセットに対する広範な実験を通じて、LCLM のコンテキストでこれらのアプローチを再検討します。
驚くべきことに、洗練されたサンプル選択手法では、単純なランダムサンプル選択手法に比べて大幅な改善が得られないことがわかりました。
その代わりに、LCLM の出現により、ICL の課題が、最も効果的なサンプルを選択するという課題から、コンテキスト ウィンドウを満たすのに十分なサンプルを収集するという課題に根本的に移行したことがわかりました。
具体的には、特定のデータセットでは、利用可能なすべてのサンプルを含めてもコンテキスト ウィンドウが十分に活用されません。
ただし、単純なデータ拡張アプローチを使用してコンテキスト内の例を拡張することにより、ICL のパフォーマンスが 5% 大幅に向上します。

要約(オリジナル)

In-Context Learning (ICL) is a technique by which language models make predictions based on examples provided in their input context. Previously, their context window size imposed a limit on the number of examples that can be shown, making example selection techniques crucial for identifying the maximally effective set of examples. However, the recent advent of Long Context Language Models (LCLMs) has significantly increased the number of examples that can be included in context, raising an important question of whether ICL performance in a many-shot regime is still sensitive to the method of sample selection. To answer this, we revisit these approaches in the context of LCLMs through extensive experiments on 18 datasets spanning 4 tasks. Surprisingly, we observe that sophisticated example selection techniques do not yield significant improvements over a simple random sample selection method. Instead, we find that the advent of LCLMs has fundamentally shifted the challenge of ICL from that of selecting the most effective examples to that of collecting sufficient examples to fill the context window. Specifically, in certain datasets, including all available examples does not fully utilize the context window; however, by augmenting the examples in context with a simple data augmentation approach, we substantially improve ICL performance by 5%.

arxiv情報

著者 Jinheon Baek,Sun Jae Lee,Prakhar Gupta,Geunseob Oh,Siddharth Dalmia,Prateek Kolhar
発行日 2025-01-06 08:45:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク