In-Context Learning Learns Label Relationships but Is Not Conventional Learning

要約

コンテキストに入力とラベルの関係の例を含めると、ダウンストリーム タスクに関する大規模言語モデル (LLM) の予測が大幅に向上することがよくあります。
ただし、LLM のこのインコンテキスト学習 (ICL) 機能がどのように機能するかについては、現時点ではコンセンサスがありません。
たとえば、Xie et al。
Min et al. (2021) は、ICL を汎用学習アルゴリズムに例えています。
(2022) ICL はコンテキスト内の例からラベル関係さえ学習しないと主張しています。
このペーパーでは、ICL がラベル情報をどのように活用するかについて新たな洞察を提供し、機能と限界の両方を明らかにします。
ICL の動作の包括的な全体像を確実に取得するために、ICL 予測の確率的側面を研究し、より多くの例が提供されるにつれて ICL のダイナミクスを徹底的に調査します。
私たちの実験は、ICL 予測がほぼ常にコンテキスト内のラベルに依存し、ICL がコンテキスト内で真に新しいタスクを学習できることを示しています。
ただし、ICL は事前トレーニング データから取得した予測の好みを完全に克服するのに苦労しており、さらに、ICL はすべてのコンテキスト内の情報を同等に考慮していないこともわかりました。

要約(オリジナル)

The predictions of Large Language Models (LLMs) on downstream tasks often improve significantly when including examples of the input–label relationship in the context. However, there is currently no consensus about how this in-context learning (ICL) ability of LLMs works. For example, while Xie et al. (2021) liken ICL to a general-purpose learning algorithm, Min et al. (2022) argue ICL does not even learn label relationships from in-context examples. In this paper, we provide novel insights into how ICL leverages label information, revealing both capabilities and limitations. To ensure we obtain a comprehensive picture of ICL behavior, we study probabilistic aspects of ICL predictions and thoroughly examine the dynamics of ICL as more examples are provided. Our experiments show that ICL predictions almost always depend on in-context labels and that ICL can learn truly novel tasks in-context. However, we also find that ICL struggles to fully overcome prediction preferences acquired from pre-training data and, further, that ICL does not consider all in-context information equally.

arxiv情報

著者 Jannik Kossen,Yarin Gal,Tom Rainforth
発行日 2024-03-13 15:00:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク