要約
経済的なトレーニングと効率的な推論を特徴とする強力な専門家混合 (MoE) 言語モデルである DeepSeek-V2 を紹介します。
これは合計 236B のパラメータで構成され、そのうち 21B がトークンごとにアクティブ化され、128K トークンのコンテキスト長をサポートします。
DeepSeek-V2 は、マルチヘッド潜在注意 (MLA) や DeepSeekMoE などの革新的なアーキテクチャを採用しています。
MLA は、Key-Value (KV) キャッシュを潜在ベクトルに大幅に圧縮することで効率的な推論を保証します。一方、DeepSeekMoE は、スパース計算により経済的なコストで強力なモデルをトレーニングできるようにします。
DeepSeek-V2 は、DeepSeek 67B と比較して、大幅に優れたパフォーマンスを達成すると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。
当社は、8.1T トークンで構成される高品質のマルチソース コーパスで DeepSeek-V2 を事前トレーニングし、さらに教師あり微調整 (SFT) と強化学習 (RL) を実行して、その可能性を完全に解き放ちます。
評価の結果、有効化されたパラメーターが 21B しかない場合でも、DeepSeek-V2 とそのチャット バージョンは依然としてオープンソース モデルの中でトップレベルのパフォーマンスを達成していることが示されています。
要約(オリジナル)
We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference. It comprises 236B total parameters, of which 21B are activated for each token, and supports a context length of 128K tokens. DeepSeek-V2 adopts innovative architectures including Multi-head Latent Attention (MLA) and DeepSeekMoE. MLA guarantees efficient inference through significantly compressing the Key-Value (KV) cache into a latent vector, while DeepSeekMoE enables training strong models at an economical cost through sparse computation. Compared with DeepSeek 67B, DeepSeek-V2 achieves significantly stronger performance, and meanwhile saves 42.5% of training costs, reduces the KV cache by 93.3%, and boosts the maximum generation throughput to 5.76 times. We pretrain DeepSeek-V2 on a high-quality and multi-source corpus consisting of 8.1T tokens, and further perform Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) to fully unlock its potential. Evaluation results show that, even with only 21B activated parameters, DeepSeek-V2 and its chat versions still achieve top-tier performance among open-source models.
arxiv情報
著者 | DeepSeek-AI |
発行日 | 2024-05-16 17:25:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google