What Do Language Models Learn in Context? The Structured Task Hypothesis

要約

大規模言語モデル (LLM) は、インコンテキスト学習 (ICL) と呼ばれる、デモンストレーションで提示されたインコンテキストの例から新しいタスクを学習する興味深い能力を示します。
当然のことながら、ICL の基礎となる理論を明らかにするために、一連の研究が捧げられてきました。
人気のある仮説の 1 つは、ICL をタスク選択によって説明します。
LLM はデモンストレーションに基づいてタスクを特定し、それをプロンプトに一般化します。
もう 1 つの一般的な仮説は、ICL はメタ学習の一種である、つまり、モデルが事前トレーニング時に学習アルゴリズムを学習し、それをデモンストレーションに適用するというものです。
最後に、3 番目の仮説は、LLM がデモンストレーションを使用して、ICL を実行するための事前トレーニング中に学習したタスクの構成を選択するというものです。
この論文では、一般的なテキスト分類タスクから導き出された一連の実験を使用して、LLM のコンテキスト内で学習する能力を説明するこれら 3 つの仮説を実証的に調査します。
最初の 2 つの仮説を反例で無効にし、最後の仮説を裏付ける証拠を提供します。
私たちの結果は、LLMが事前トレーニング中に学習したタスクを構成することで、コンテキスト内の新しいタスクを学習できることを示唆しています。

要約(オリジナル)

Large language models (LLMs) exhibit an intriguing ability to learn a novel task from in-context examples presented in a demonstration, termed in-context learning (ICL). Understandably, a swath of research has been dedicated to uncovering the theories underpinning ICL. One popular hypothesis explains ICL by task selection. LLMs identify the task based on the demonstration and generalize it to the prompt. Another popular hypothesis is that ICL is a form of meta-learning, i.e., the models learn a learning algorithm at pre-training time and apply it to the demonstration. Finally, a third hypothesis argues that LLMs use the demonstration to select a composition of tasks learned during pre-training to perform ICL. In this paper, we empirically explore these three hypotheses that explain LLMs’ ability to learn in context with a suite of experiments derived from common text classification tasks. We invalidate the first two hypotheses with counterexamples and provide evidence in support of the last hypothesis. Our results suggest an LLM could learn a novel task in context via composing tasks learned during pre-training.

arxiv情報

著者 Jiaoda Li,Yifan Hou,Mrinmaya Sachan,Ryan Cotterell
発行日 2024-08-05 15:08:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク