Can In-context Learning Really Generalize to Out-of-distribution Tasks?

要約

この研究では、トレーニング中に遭遇しなかった配布外 (OOD) タスクに関するインコンテキスト学習 (ICL) のメカニズムを調査します。
これを達成するために、GPT-2 モデルを使用した ICL を通じて OOD 数学関数を学習することを目的とした合成実験を実施します。
トランスフォーマーが ICL を通じて OOD タスク関数を学習するのに苦労する可能性があることを明らかにします。
具体的には、ICL のパフォーマンスは、事前トレーニング仮説空間内で関数を実装し、コンテキスト内の例に基づいて勾配降下法で関数を最適化することに似ています。
さらに、コンテキスト内で目に見えない抽象ラベルを学習する ICL の十分に文書化された機能を調査します。
我々は、そのような能力は分布の変化がないシナリオでのみ現れるため、新しいタスクの学習能力の証拠として機能しない可能性があることを実証します。
さらに、モデルが複数のタスクで事前トレーニングされている場合の OOD タスクでの ICL のパフォーマンスを評価します。
経験的分析と理論的分析の両方で、ICL の \textbf{低テストエラー優先度} の存在が実証されており、ICL はテスト コンテキストでのテスト エラーを低くする事前トレーニング関数を実装する傾向があります。
これを数値実験によって検証します。
この新しい理論的結果は、私たちの経験的発見と組み合わせることで、OOD タスクに対処する際の ICL のメカニズムを解明します。

要約(オリジナル)

In this work, we explore the mechanism of in-context learning (ICL) on out-of-distribution (OOD) tasks that were not encountered during training. To achieve this, we conduct synthetic experiments where the objective is to learn OOD mathematical functions through ICL using a GPT-2 model. We reveal that Transformers may struggle to learn OOD task functions through ICL. Specifically, ICL performance resembles implementing a function within the pretraining hypothesis space and optimizing it with gradient descent based on the in-context examples. Additionally, we investigate ICL’s well-documented ability to learn unseen abstract labels in context. We demonstrate that such ability only manifests in the scenarios without distributional shifts and, therefore, may not serve as evidence of new-task-learning ability. Furthermore, we assess ICL’s performance on OOD tasks when the model is pretrained on multiple tasks. Both empirical and theoretical analyses demonstrate the existence of the \textbf{low-test-error preference} of ICL, where it tends to implement the pretraining function that yields low test error in the testing context. We validate this through numerical experiments. This new theoretical result, combined with our empirical findings, elucidates the mechanism of ICL in addressing OOD tasks.

arxiv情報

著者 Qixun Wang,Yifei Wang,Yisen Wang,Xianghua Ying
発行日 2024-12-04 15:35:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク