要約
ラージ・ランゲージ・モデル(Large Language Models: LLM)の下流タスクに対する予測は、入力とラベルの関係の例をコンテキストに含めると、しばしば著しく向上する。しかし、LLMのこの文脈内学習(ICL)能力がどのように機能するかについては、現在のところコンセンサスは得られていない。例えば、Xieら(2021)はICLを汎用的な学習アルゴリズムになぞらえているが、Minら(2022)はICLはコンテキスト内の例からラベル関係すら学習しないと主張している。本論文では、ICLがどのようにラベル情報を活用するかについて新しい洞察を提供し、能力と限界の両方を明らかにする。ICLの振る舞いを包括的に把握するため、ICL予測の確率的側面を研究し、より多くの例が提供された場合のICLのダイナミクスを徹底的に調べる。我々の実験から、ICLの予測はほとんど常に文脈中のラベルに依存し、ICLは真に新しいタスクを文脈中で学習できることがわかった。しかし、ICLは事前学習データから得た予測選好を完全に克服するのに苦労すること、さらに、ICLは全ての文脈内情報を等しく考慮するわけではないことも分かった。
要約(オリジナル)
The predictions of Large Language Models (LLMs) on downstream tasks often improve significantly when including examples of the input–label relationship in the context. However, there is currently no consensus about how this in-context learning (ICL) ability of LLMs works. For example, while Xie et al. (2021) liken ICL to a general-purpose learning algorithm, Min et al. (2022) argue ICL does not even learn label relationships from in-context examples. In this paper, we provide novel insights into how ICL leverages label information, revealing both capabilities and limitations. To ensure we obtain a comprehensive picture of ICL behavior, we study probabilistic aspects of ICL predictions and thoroughly examine the dynamics of ICL as more examples are provided. Our experiments show that ICL predictions almost always depend on in-context labels, and that ICL can learn truly novel tasks in-context. However, we also find that ICL struggles to fully overcome prediction preferences acquired from pre-training data, and, further, that ICL does not consider all in-context information equally.
arxiv情報
著者 | Jannik Kossen,Yarin Gal,Tom Rainforth |
発行日 | 2023-10-03 08:19:44+00:00 |
arxivサイト | arxiv_id(pdf) |