要約
効率的かつ効果的な建築バックボーンの設計は、基礎モデルの能力を高めるための研究努力の中核となっています。
注意バイアスの人間の認知現象に触発されました – 特定のイベントまたは刺激を優先する自然な傾向 – 変圧器、タイタン、および内部の対象を使用してキーと値のマッピングを学習する関連記憶モジュールとして、変圧器、タイタン、最新の線形再発性ニューラルネットワークを含む神経アーキテクチャを再概念化します。
驚くべきことに、ほとんどの既存のシーケンスモデルは、(1)ドット製品の類似性、または(2)L2回帰目標のいずれかを注意バイアスとして活用することが観察されました。
これらの目的を超えて、トレーニング手順を安定させるための効果的な近似とともに、一連の代替注意バイアス構成を提示します。
次に、現代の深い学習アーキテクチャにおける忘却のメカニズムを保持正規化の一形態として再解釈し、シーケンスモデルに忘れられないゲートの新しいセットを提供します。
これらの洞察に基づいて、(i)関連記憶アーキテクチャ、(ii)注意バイアス目的、(iii)保持ゲート、および(iv)メモリ学習アルゴリズムの4つの選択に基づいて深い学習アーキテクチャを設計するための一般的な枠組みであるMirasを提示します。
迅速な平行化可能なトレーニングプロセスを維持しながら、既存の線形RNNの力を超える3つの新しいシーケンスモデルモデル、YAAD、およびメモを紹介します。
私たちの実験は、さまざまな強度を持つMirasの収量モデルのさまざまな設計の選択を示しています。
たとえば、MIRASの特定のインスタンスは、言語モデリング、常識的推論、集中的なタスクを思い出すなど、特別なタスクで例外的なパフォーマンスを実現し、さらにはパフォーマンスの変圧器やその他の最新の線形再発モデルです。
要約(オリジナル)
Designing efficient and effective architectural backbones has been in the core of research efforts to enhance the capability of foundation models. Inspired by the human cognitive phenomenon of attentional bias-the natural tendency to prioritize certain events or stimuli-we reconceptualize neural architectures, including Transformers, Titans, and modern linear recurrent neural networks as associative memory modules that learn a mapping of keys and values using an internal objective, referred to as attentional bias. Surprisingly, we observed that most existing sequence models leverage either (1) dot-product similarity, or (2) L2 regression objectives as their attentional bias. Going beyond these objectives, we present a set of alternative attentional bias configurations along with their effective approximations to stabilize their training procedure. We then reinterpret forgetting mechanisms in modern deep learning architectures as a form of retention regularization, providing a novel set of forget gates for sequence models. Building upon these insights, we present Miras, a general framework to design deep learning architectures based on four choices of: (i) associative memory architecture, (ii) attentional bias objective, (iii) retention gate, and (iv) memory learning algorithm. We present three novel sequence models-Moneta, Yaad, and Memora-that go beyond the power of existing linear RNNs while maintaining a fast parallelizable training process. Our experiments show different design choices in Miras yield models with varying strengths. For example, certain instances of Miras achieve exceptional performance in special tasks such as language modeling, commonsense reasoning, and recall intensive tasks, even outperforming Transformers and other modern linear recurrent models.
arxiv情報
著者 | Ali Behrouz,Meisam Razaviyayn,Peilin Zhong,Vahab Mirrokni |
発行日 | 2025-04-17 17:59:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google