Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks

要約

ソフトマックス アテンションは、さまざまな人工知能アプリケーションの基礎モデルの主なバックボーンですが、シーケンス長の 2 次複雑さにより、ロングコンテキスト設定では推論のスループットが制限される可能性があります。
この課題に対処するために、線形アテンション、状態空間モデル (SSM)、リカレント ニューラル ネットワーク (RNN) などの代替アーキテクチャが、より効率的な代替手段として検討されてきました。
これらのアプローチ間には関連性が存在しますが、そのようなモデルは通常、単独で開発されており、これらのアーキテクチャを支える共通の原則とその微妙な違いについての理論的理解が不足しており、パフォーマンスとスケーラビリティに大きな影響を及ぼします。
このペーパーでは、これらすべてのアーキテクチャを共通の表現で原則に基づいて調査できる動的システム フレームワーク (DSF) を紹介します。
私たちのフレームワークは厳密な比較を容易にし、各モデル クラスの特有の特性に関する新たな洞察を提供します。
たとえば、線形注意と選択的 SSM を比較し、それらの違いと両方が同等となる条件を詳しく説明します。
また、ソフトマックス アテンションと他のモデル クラスの間の原理的な比較も提供し、ソフトマックス アテンションを近似できる理論的条件について説明します。
さらに、これらの新しい洞察を経験的検証と数学的議論によって実証します。
これは、将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く DSF の可能性を示しています。

要約(オリジナル)

Softmax attention is the principle backbone of foundation models for various artificial intelligence applications, yet its quadratic complexity in sequence length can limit its inference throughput in long-context settings. To address this challenge, alternative architectures such as linear attention, State Space Models (SSMs), and Recurrent Neural Networks (RNNs) have been considered as more efficient alternatives. While connections between these approaches exist, such models are commonly developed in isolation and there is a lack of theoretical understanding of the shared principles underpinning these architectures and their subtle differences, greatly influencing performance and scalability. In this paper, we introduce the Dynamical Systems Framework (DSF), which allows a principled investigation of all these architectures in a common representation. Our framework facilitates rigorous comparisons, providing new insights on the distinctive characteristics of each model class. For instance, we compare linear attention and selective SSMs, detailing their differences and conditions under which both are equivalent. We also provide principled comparisons between softmax attention and other model classes, discussing the theoretical conditions under which softmax attention can be approximated. Additionally, we substantiate these new insights with empirical validations and mathematical arguments. This shows the DSF’s potential to guide the systematic development of future more efficient and scalable foundation models.

arxiv情報

著者 Jerome Sieber,Carmen Amo Alonso,Alexandre Didier,Melanie N. Zeilinger,Antonio Orvieto
発行日 2024-05-24 17:19:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY パーマリンク