要約
現代言語モデルのコンテキスト内学習能力は、シーケンスモデルのより深い数学的理解を動機付けています。
最近の作業の行は、線形注意モデルが、コンテキストウィンドウで提供されたデータからタスクベクトルを暗黙的に学習するために、予測される勾配降下反復をエミュレートできることを示しています。
この作業では、グローバルなタスク分布を条件付きタスク分布の結合に分割できる新しい設定を検討します。
次に、1層の注意モデルを使用して条件付きタスク分布に関連する以前の情報を学習するためのタスク固有のプロンプトと予測ヘッドの使用を調べます。
損失の状況に関する我々の結果は、タスク固有のプロンプトが共分散間平均のデカップリングを容易にすることを示しています。ここでは、プロンプトチューニングが分布の条件付き平均を説明するのに対し、分散はコンテキスト内学習を通じて学習/説明されます。
タスク固有のヘッドを組み込むと、平均成分と分散成分の推定を完全に分離することにより、このプロセスがさらに役立ちます。
この共分散世の視点は、同様に、迅速なトレーニングのトレーニングと注意の重量が、事前トレーニング後の微調整に応じてどのように役立つかを説明しています。
要約(オリジナル)
The in-context learning capabilities of modern language models have motivated a deeper mathematical understanding of sequence models. A line of recent work has shown that linear attention models can emulate projected gradient descent iterations to implicitly learn the task vector from the data provided in the context window. In this work, we consider a novel setting where the global task distribution can be partitioned into a union of conditional task distributions. We then examine the use of task-specific prompts and prediction heads for learning the prior information associated with the conditional task distribution using a one-layer attention model. Our results on loss landscape show that task-specific prompts facilitate a covariance-mean decoupling where prompt-tuning explains the conditional mean of the distribution whereas the variance is learned/explained through in-context learning. Incorporating task-specific head further aids this process by entirely decoupling estimation of mean and variance components. This covariance-mean perspective similarly explains how jointly training prompt and attention weights can provably help over fine-tuning after pretraining.
arxiv情報
著者 | Xiangyu Chang,Yingcong Li,Muti Kara,Samet Oymak,Amit K. Roy-Chowdhury |
発行日 | 2025-03-05 16:18:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google