Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

要約

基礎モデルをより効率的かつ効果的にするために、私たちのアイデアはシーケンス変換と状態変換を組み合わせることです。
まず、状態空間双対性アルゴリズムにおける回転位置埋め込みの可用性を証明します。これにより、ハイブリッド二次因果的自己注意と状態空間双対性の混乱が 4% 以上軽減され、結合シーケンス変換が位置エンコーディングを統合することが保証されます。
次に、動的マスク アテンションを提案します。これは、より困難なマルチクエリ連想呼び出しタスクで 100% の精度を維持し、二次因果的セルフ アテンションと状態空間双対性と比較して 150% 以上向上し、組み合わせシーケンス変換が選択的に実行されることを保証します。
関連情報をフィルタリングします。
第三に、エキスパートのクロスドメイン混合を設計します。これにより、1024 人を超えるエキスパートによるエキスパート検索の計算速度が、エキスパートの混合よりも 8 ~ 10 倍速くなり、結合状態変換が混合を迅速に検索できるようになります。
最後に、基礎モデルを形成できるこれらの行列アルゴリズムを要約します。Wonderful Matrices は、一般的なモデル アーキテクチャの競合となる可能性があります。

要約(オリジナル)

In order to make the foundation model more efficient and effective, our idea is combining sequence transformation and state transformation. First, we prove the availability of rotary position embedding in the state space duality algorithm, which reduces the perplexity of the hybrid quadratic causal self-attention and state space duality by more than 4%, to ensure that the combining sequence transformation unifies position encoding. Second, we propose dynamic mask attention, which maintains 100% accuracy in the more challenging multi-query associative recall task, improving by more than 150% compared to quadratic causal self-attention and state space duality, to ensure that the combining sequence transformation selectively filters relevant information. Third, we design cross domain mixture of experts, which makes the computational speed of expert retrieval with more than 1024 experts 8 to 10 times faster than the mixture of experts, to ensure that the combining state transformation quickly retrieval mixture. Finally, we summarize these matrix algorithms that can form the foundation model: Wonderful Matrices, which can be a competitor to popular model architectures.

arxiv情報

著者 Jingze Shi,Bingheng Wu
発行日 2024-12-20 11:43:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク