要約
Scale は自然言語処理の新たな境地を切り開きましたが、それには高いコストがかかります。
これに応えて、トレーニングと推論でパラメーターのサブセットのみをアクティブにすることを学習することにより、専門家混合 (MoE) がさらに大規模でより有能な言語モデルへのエネルギー効率の高いパスとして提案され、新世代の基盤への移行が行われています。
モデルは、特に自動音声認識 (ASR) の分野で勢いを増しています。
MoE を ASR モデルに組み込む最近の取り組みでは、補助的な埋め込みネットワークを介したフレームのルーティング、エキスパートの多言語能力の向上、エキスパートのロード バランシングまたは特定の言語の処理のための専用の補助損失の利用など、複雑な設計が行われています。
私たちは、繊細な設計は必要なく、すべてのフィードフォワード ネットワーク (FFN) 層を MoE 層に置き換えるだけで、ASR タスクに適していることがわかりました。
より具体的には、大規模な内部ソース データセット (160,000 時間) で提案されたモデルのベンチマークを実行しました。その結果は、ベースライン Conformer (Dense-225M) を対応する MoE (MoE-1B) にスケールし、Dense を達成できることを示しています。
Dense-225M レベルのリアルタイム係数 (RTF) を維持しながら、-1B レベルのワード誤り率 (WER) を実現。
さらに、双方向アテンション デコーダ (U2++) を備えた統合 2 パス フレームワークを適用することにより、U2++ MoE と呼ばれる単一の MoE ベースのモデルでストリーミング デコード モードと非ストリーミング デコード モードを実現します。
私たちの研究により、展開効率を犠牲にすることなく音声基盤モデルのスケーリングに関する研究が促進されることを願っています。
要約(オリジナル)
Scale has opened new frontiers in natural language processing, but at a high cost. In response, by learning to only activate a subset of parameters in training and inference, Mixture-of-Experts (MoE) have been proposed as an energy efficient path to even larger and more capable language models and this shift towards a new generation of foundation models is gaining momentum, particularly within the field of Automatic Speech Recognition (ASR). Recent works that incorporating MoE into ASR models have complex designs such as routing frames via supplementary embedding network, improving multilingual ability for the experts, and utilizing dedicated auxiliary losses for either expert load balancing or specific language handling. We found that delicate designs are not necessary, while an embarrassingly simple substitution of MoE layers for all Feed-Forward Network (FFN) layers is competent for the ASR task. To be more specific, we benchmark our proposed model on a large scale inner-source dataset (160k hours), the results show that we can scale our baseline Conformer (Dense-225M) to its MoE counterparts (MoE-1B) and achieve Dense-1B level Word Error Rate (WER) while maintaining a Dense-225M level Real Time Factor (RTF). Furthermore, by applying Unified 2-pass framework with bidirectional attention decoders (U2++), we achieve the streaming and non-streaming decoding modes in a single MoE based model, which we call U2++ MoE. We hope that our study can facilitate the research on scaling speech foundation models without sacrificing deployment efficiency.
arxiv情報
著者 | Xingchen Song,Di Wu,Binbin Zhang,Dinghao Zhou,Zhendong Peng,Bo Dang,Fuping Pan,Chao Yang |
発行日 | 2024-04-25 08:34:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google