要約
トランスモデルはさまざまなドメインで顕著な成功を収めていますが、深いネットワークを介した情報伝播の有効性は依然として重要な課題です。
標準的な隠された状態残差は、多くの場合、初期トークンレベルの情報をより深い層に適切に保存できません。
このペーパーでは、隠された状態残差に加えて価値の残留接続を組み込むことで情報の流れを強化する新しいアーキテクチャであるResformerを紹介します。
バリアントはSVFormerで、すべてのレイヤーが最初のレイヤーの値の埋め込みを共有します。
包括的な経験的証拠は、ゼロの使用量と計算コストを維持しながら、変圧器と比較して13.3%少ないモデルパラメーターと15.4 \%のトレーニングデータで同等の検証損失を達成することを示しています。
さらに、SVFormerはKVキャッシュサイズをわずかなパフォーマンスペナルティでほぼ半分に削減し、他のKV効率の高い方法と統合して、KVキャッシュのさらなる削減をもたらし、パフォーマンスはシーケンスの長さと累積学習率の影響を受けます。
要約(オリジナル)
While Transformer models have achieved remarkable success in various domains, the effectiveness of information propagation through deep networks remains a critical challenge. Standard hidden state residuals often fail to adequately preserve initial token-level information in deeper layers. This paper introduces ResFormer, a novel architecture that enhances information flow by incorporating value residual connections in addition to hidden state residuals. And a variant is the SVFormer, where all layers share the first layer’s value embedding. Comprehensive empirical evidence demonstrates ResFormer achieves equivalent validation loss with 13.3\% fewer model parameters and 15.4\% less training data compared to Transformer, while maintaining similar memory usage and computational cost. Besides, SVFormer reduces KV cache size by nearly half with only a small performance penalty and can be integrated with other KV-efficient methods, yielding further reductions in KV cache, with performance influenced by sequence length and cumulative learning rate.
arxiv情報
著者 | Zhanchao Zhou,Tianyi Wu,Zhiyun Jiang,Fares Obeid,Zhenzhong Lan |
発行日 | 2025-02-19 17:53:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google