Understanding Task Vectors in In-Context Learning: Emergence, Functionality, and Limitations

要約

タスクベクトルは、タスク固有の情報を単一の再利用可能な表現に蒸留することにより、コンテキスト内学習(ICL)における推論を加速するための魅力的なメカニズムを提供します。
彼らの経験的成功にもかかわらず、彼らの出現と機能性を管理する根本的な原則は不明のままです。
この作業では、線形の組み合わせの推測を提案し、タスクベクトルが元のものの線形組み合わせを通じて形成された単一のコンテキストデモンストレーションとして機能します。
この推測に対する理論的および経験的サポートの両方を提供します。
まず、タスクベクトルが、損失景観分析を通じてトリプレット形式のプロンプトで訓練された線形トランスで自然に出現することを示します。
次に、ハイランクマッピングを表す際のタスクベクトルの障害を予測し、これを実際のLLMで確認します。
私たちの調査結果は、顕著性分析とパラメーターの視覚化を通じてさらに検証され、複数のものを少数のショットプロンプトに注入することにより、タスクベクターの強化を示唆しています。
一緒に、私たちの結果は、トランスベースのモデルのICLの根底にあるメカニズムにタスクベクトルの理解を促進します。

要約(オリジナル)

Task vectors offer a compelling mechanism for accelerating inference in in-context learning (ICL) by distilling task-specific information into a single, reusable representation. Despite their empirical success, the underlying principles governing their emergence and functionality remain unclear. This work proposes the Linear Combination Conjecture, positing that task vectors act as single in-context demonstrations formed through linear combinations of the original ones. We provide both theoretical and empirical support for this conjecture. First, we show that task vectors naturally emerge in linear transformers trained on triplet-formatted prompts through loss landscape analysis. Next, we predict the failure of task vectors on representing high-rank mappings and confirm this on practical LLMs. Our findings are further validated through saliency analyses and parameter visualization, suggesting an enhancement of task vectors by injecting multiple ones into few-shot prompts. Together, our results advance the understanding of task vectors and shed light on the mechanisms underlying ICL in transformer-based models.

arxiv情報

著者 Yuxin Dong,Jiachen Jiang,Zhihui Zhu,Xia Ning
発行日 2025-06-10 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク