In-Context Learning with Hypothesis-Class Guidance

要約

最近の研究では、理論的および経験的に、コンテキスト内学習(ICL)の根本的なメカニズムを調査しており、多くの場合、単純な関数クラスから生成されたデータを使用しています。
ただし、既存の作業は、ラベル付きの例のみで構成されるシーケンスに焦点を当てていることがよくありますが、実際にはラベルのある例には通常、指示が伴い、タスクに関する副情報を提供します。
この作業では、入力コンテキストが(有限)仮説クラスHと$(X、Y)$ペアの文字通りの説明で構成されているICLの新しい合成データモデルである仮説クラスのガイダンス(ICL-HCG)を備えたICLを提案します。Hから選択した仮説からのペアを提案します。
(ii)異なるモデルアーキテクチャ。
(iii)サンプルの複雑さ。
(iv)コンテキスト内データの不均衡。
(v)指導の役割。
(vi)仮説の仮説の多様性の影響。
その結果、(a)トランスがICL-HCGを正常に学習し、目に見えない仮説と目に見えない仮説クラスに一般化できることを示し、(b)命令なしでICLと比較して、ICL-HCGは有意に高い精度を達成し、命令の役割を実証します。

要約(オリジナル)

Recent research has investigated the underlying mechanisms of in-context learning (ICL) both theoretically and empirically, often using data generated from simple function classes. However, the existing work often focuses on the sequence consisting solely of labeled examples, while in practice, labeled examples are typically accompanied by an instruction, providing some side information about the task. In this work, we propose ICL with hypothesis-class guidance (ICL-HCG), a novel synthetic data model for ICL where the input context consists of the literal description of a (finite) hypothesis class H and $(x,y)$ pairs from a hypothesis chosen from H. Under our framework ICL-HCG, we conduct extensive experiments to explore: (i) a variety of generalization abilities to new hypothesis classes; (ii) different model architectures; (iii) sample complexity; (iv) in-context data imbalance; (v) the role of instruction; and (vi) the effect of pretraining hypothesis diversity. As a result, we show that (a) Transformers can successfully learn ICL-HCG and generalize to unseen hypotheses and unseen hypothesis classes, and (b) compared with ICL without instruction, ICL-HCG achieves significantly higher accuracy, demonstrating the role of instructions.

arxiv情報

著者 Ziqian Lin,Shubham Kumar Bharti,Kangwook Lee
発行日 2025-02-28 16:20:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク