Test-time regression: a unifying framework for designing sequence models with associative memory

要約

シーケンスは、情報を表現および処理するための非常に一般的な方法を提供します。
この強力な抽象化により、シーケンス モデリングが現代の深層学習アプリケーションの中心に据えられ、トランスフォーマーからリカレント ネットワークに至るまでの数多くのアーキテクチャに影響を与えています。
この細分化された開発により、強力なモデルが生み出されましたが、それらの基本的な類似点を理解し、その有効性を説明するための統一されたフレームワークが存在しませんでした。
私たちは、効果的なシーケンス モデルは連想想起を実行できなければならないという経験的観察に動機付けられた統一的なフレームワークを提示します。
私たちの重要な洞察は、連想記憶を通じて入力トークンを記憶することは、テスト時に回帰を実行することと同等であるということです。
この回帰とメモリの対応は、連想呼び出しを実行できるシーケンス モデルを導出するフレームワークを提供し、一見アドホックなアーキテクチャの選択を理解するための体系的なレンズを提供します。
私たちは、線形アテンション モデル、そのゲート バリアント、状態空間モデル、オンライン学習者、ソフトマックス アテンションなどの最近の多数のアーキテクチャが、テスト時回帰への特定のアプローチとして自然に出現することを示します。
各アーキテクチャは、各関連付けの相対的な重要性、回帰関数クラス、最適化アルゴリズムという 3 つの設計選択肢に対応します。
このつながりは新たな理解につながります。つまり、ソフトマックス アテンションにおける QKNorm の理論的正当化を提供し、ソフトマックス アテンションの高次の一般化を動機付けます。
私たちの研究は、統一を超えて、より強力で原則に基づいたシーケンス モデルの将来の開発を導くことができる、数十年にわたる豊富な統計ツールを解放します。

要約(オリジナル)

Sequences provide a remarkably general way to represent and process information. This powerful abstraction has placed sequence modeling at the center of modern deep learning applications, inspiring numerous architectures from transformers to recurrent networks. While this fragmented development has yielded powerful models, it has left us without a unified framework to understand their fundamental similarities and explain their effectiveness. We present a unifying framework motivated by an empirical observation: effective sequence models must be able to perform associative recall. Our key insight is that memorizing input tokens through an associative memory is equivalent to performing regression at test-time. This regression-memory correspondence provides a framework for deriving sequence models that can perform associative recall, offering a systematic lens to understand seemingly ad-hoc architectural choices. We show numerous recent architectures — including linear attention models, their gated variants, state-space models, online learners, and softmax attention — emerge naturally as specific approaches to test-time regression. Each architecture corresponds to three design choices: the relative importance of each association, the regressor function class, and the optimization algorithm. This connection leads to new understanding: we provide theoretical justification for QKNorm in softmax attention, and we motivate higher-order generalizations of softmax attention. Beyond unification, our work unlocks decades of rich statistical tools that can guide future development of more powerful yet principled sequence models.

arxiv情報

著者 Ke Alexander Wang,Jiaxin Shi,Emily B. Fox
発行日 2025-01-21 18:32:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, stat.ML パーマリンク