DenseMamba: State Space Models with Dense Hidden Connection for Efficient Large Language Models

要約

大規模言語モデル (LLM) は、一般的に使用される Transformer アーキテクチャの過剰な計算要件とメモリ要件により、困難な課題に直面しています。
状態空間モデル (SSM) は、計算の複雑性が低い新しいタイプの基本的なネットワーク アーキテクチャですが、そのパフォーマンスはまだ Transformers のパフォーマンスに完全に匹敵するものではありません。
このペーパーでは、SSM のレイヤ間の隠された情報の流れを強化する新しいアプローチである DenseSSM を紹介します。
DenseSSM は、浅層の隠れ状態をより深い層に選択的に統合することにより、最終出力に重要な詳細な情報を保持します。
強化された高密度接続 DenseSSM は、トレーニングの並列性と推論効率を維持します。
提案された方法は、RetNet や Mamba などのさまざまな SSM タイプに広く適用できます。
DenseSSM は同様のモデル サイズで大幅な改善を実現しており、その例として、DenseRetNet がオリジナルの RetNet を上回り、公開ベンチマークで最大 5% の精度向上が見られます。
コードは https://github.com/WailordHe/DenseSSM で入手できます。

要約(オリジナル)

Large language models (LLMs) face a daunting challenge due to the excessive computational and memory requirements of the commonly used Transformer architecture. While state space model (SSM) is a new type of foundational network architecture offering lower computational complexity, their performance has yet to fully rival that of Transformers. This paper introduces DenseSSM, a novel approach to enhance the flow of hidden information between layers in SSMs. By selectively integrating shallowlayer hidden states into deeper layers, DenseSSM retains fine-grained information crucial for the final output. Dense connections enhanced DenseSSM still maintains the training parallelizability and inference efficiency. The proposed method can be widely applicable to various SSM types like RetNet and Mamba. With similar model size, DenseSSM achieves significant improvements, exemplified by DenseRetNet outperforming the original RetNet with up to 5% accuracy improvement on public benchmarks. code is avalaible at https://github.com/WailordHe/DenseSSM

arxiv情報

著者 Wei He,Kai Han,Yehui Tang,Chengcheng Wang,Yujie Yang,Tianyu Guo,Yunhe Wang
発行日 2024-03-05 14:31:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク