要約
Transformers のような大規模な自己回帰モデルは、新しい重みを学習することなく、インコンテキスト学習 (ICL) を通じてタスクを解決でき、新しいタスクを効率的に解決する手段を示唆しています。
線形回帰などの多くのタスクでは、データは因数分解されます。データ (線形係数など) を生成する潜在的なタスクが与えられた場合、例は独立しています。
最適予測子はタスクの潜在性を推論することでこの因数分解を利用しますが、トランスフォーマーが暗黙的にそうするのか、それとも代わりにアテンション層によって有効になるヒューリスティックや統計的ショートカットを利用するのかは不明です。
どちらのシナリオも、現在進行中の活発な作業にインスピレーションを与えています。
この論文では、タスク潜在性を明示的に推論する効果を体系的に調査します。
より構造化されたソリューションを優先してショートカットを防止するように設計されたボトルネックを備えた Transformer アーキテクチャを最小限に変更し、さまざまな ICL タスクにわたって標準の Transformer とパフォーマンスを比較します。
直観やいくつかの最近の研究に反して、この 2 つの違いはほとんど認識できません。
一般に、タスク関連の潜在変数に偏ることは、分布外パフォーマンスの向上にはつながりません。
興味深いことに、ボトルネックはコンテキストから潜在的なタスク変数を抽出する方法を効果的に学習しますが、下流の処理はそれらを堅牢な予測に利用するのに苦労していることがわかりました。
私たちの研究は、一般化された構造化された ICL ソリューションを実現する際の Transformers の本質的な限界を強調し、適切な潜在を推測することは解釈可能性を助けるものの、この問題を軽減するには十分ではないことを示しています。
要約(オリジナル)
Large autoregressive models like Transformers can solve tasks through in-context learning (ICL) without learning new weights, suggesting avenues for efficiently solving new tasks. For many tasks, e.g., linear regression, the data factorizes: examples are independent given a task latent that generates the data, e.g., linear coefficients. While an optimal predictor leverages this factorization by inferring task latents, it is unclear if Transformers implicitly do so or if they instead exploit heuristics and statistical shortcuts enabled by attention layers. Both scenarios have inspired active ongoing work. In this paper, we systematically investigate the effect of explicitly inferring task latents. We minimally modify the Transformer architecture with a bottleneck designed to prevent shortcuts in favor of more structured solutions, and then compare performance against standard Transformers across various ICL tasks. Contrary to intuition and some recent works, we find little discernible difference between the two; biasing towards task-relevant latent variables does not lead to better out-of-distribution performance, in general. Curiously, we find that while the bottleneck effectively learns to extract latent task variables from context, downstream processing struggles to utilize them for robust prediction. Our study highlights the intrinsic limitations of Transformers in achieving structured ICL solutions that generalize, and shows that while inferring the right latents aids interpretability, it is not sufficient to alleviate this problem.
arxiv情報
著者 | Sarthak Mittal,Eric Elmoznino,Leo Gagnon,Sangnie Bhardwaj,Dhanya Sridhar,Guillaume Lajoie |
発行日 | 2024-05-29 15:06:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google