Dynamics of Transient Structure in In-Context Linear Regression Transformers

要約

現代の深いニューラルネットワークは、豊富な内部計算構造の印象的な例を表示します。
そのような構造の発展を管理する原則を明らかにすることは、深い学習の科学にとって優先事項です。
この論文では、一時的な尾根現象を探索します。変圧器が中間タスクの多様性を備えたコンテキスト内線形回帰タスクでトレーニングされると、トレーニング分布のタスクに特化する前に、最初は尾根回帰のように振る舞います。
一般的なソリューションから特殊なソリューションへのこの遷移は、共同軌道主成分分析によって明らかにされます。
さらに、ベイジアン内部モデル選択の理論を利用して、損失と複雑さの間の進化するトレードオフに基づいて、変圧器の一時的な構造の現象の一般的な説明を提案します。
この説明は、ローカル学習係数を使用したモデルの複雑さの経験的測定に基づいています。

要約(オリジナル)

Modern deep neural networks display striking examples of rich internal computational structure. Uncovering principles governing the development of such structure is a priority for the science of deep learning. In this paper, we explore the transient ridge phenomenon: when transformers are trained on in-context linear regression tasks with intermediate task diversity, they initially behave like ridge regression before specializing to the tasks in their training distribution. This transition from a general solution to a specialized solution is revealed by joint trajectory principal component analysis. Further, we draw on the theory of Bayesian internal model selection to suggest a general explanation for the phenomena of transient structure in transformers, based on an evolving tradeoff between loss and complexity. This explanation is grounded in empirical measurements of model complexity using the local learning coefficient.

arxiv情報

著者 Liam Carroll,Jesse Hoogland,Matthew Farrugia-Roberts,Daniel Murfet
発行日 2025-01-29 16:32:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク