要約
本稿では、BERT、ALBERT、GPTのような大規模言語モデルにおいて、スパース性を自然に誘導するためにMoreau-Yosida正則化を利用する、新しい深層学習オプティマイザであるSparseOptimizerを紹介する。SparseOptimizerの設計の鍵となるのは、最適化プロセスの中で直接スパース性を付与する埋め込み縮小演算子です。健全な理論的フレームワークに裏打ちされたこの演算子には解析解が含まれており、オプティマイザーのロバスト性と有効性を強化しています。重要なのは、SparseOptimizerのプラグアンドプレイ機能により、コードを修正する必要がないため、幅広い大規模言語モデルに対して普遍的に適応可能なツールとなっていることです。GLUE、RACE、SQuAD1、SQuAD2などのベンチマークデータセットでの実証評価により、SparseBERTとSparseALBERTは、SparseOptimizerを使用してスパース化された場合、パラメータ数を大幅に削減しながら、密な対応物であるBERTとALBERTに匹敵する性能を達成することが確認されています。さらに、本研究では、革新的なオプティマイザ-コンパイラ協調設計戦略を提案し、適切に設計されたコンパイラと組み合わせることで、SparseBERTにおける推論高速化(Pytorch、TensorFlow、LLVMジェネリックコンパイルとの比較で、それぞれ୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)੭ꠥ⁾⁾3.37倍}、୧⃛(๑⃙⃘⁼̴́꒳⁼̴̀๑⃙⃘)੭ꠥ⁾7.15倍}の可能性を実証した。本研究は、効率的でスケーラブルかつ高性能な大規模言語モデルの進化における重要な一歩であり、この領域における将来の探索と最適化の先例となるものです。SparseOptimizerコードとSparseALBERTモデルは、論文が受理された時点で一般公開される予定です。
要約(オリジナル)
This paper introduces SparseOptimizer, a novel deep learning optimizer that exploits Moreau-Yosida regularization to naturally induce sparsity in large language models such as BERT, ALBERT and GPT. Key to the design of SparseOptimizer is an embedded shrinkage operator, which imparts sparsity directly within the optimization process. This operator, backed by a sound theoretical framework, includes an analytical solution, thereby reinforcing the optimizer’s robustness and efficacy. Crucially, SparseOptimizer’s plug-and-play functionality eradicates the need for code modifications, making it a universally adaptable tool for a wide array of large language models. Empirical evaluations on benchmark datasets such as GLUE, RACE, SQuAD1, and SQuAD2 confirm that SparseBERT and SparseALBERT, when sparsified using SparseOptimizer, achieve performance comparable to their dense counterparts, BERT and ALBERT, while significantly reducing their parameter count. Further, this work proposes an innovative optimizer-compiler co-design strategy, demonstrating the potential of inference acceleration (\textbf{3.37x}, \textbf{6.30x}, and \textbf{7.15x} in comparison with Pytorch, TensorFlow, and LLVM generic compile, respectively) in SparseBERT when paired with an appropriately designed compiler. This study represents a significant step forward in the evolution of efficient, scalable, and high-performing large language models, setting a precedent for future exploration and optimization in this domain. The SparseOptimizer code and SparseALBERT model will be publicly available upon paper acceptance.
arxiv情報
著者 | Fu-Ming Guo |
発行日 | 2023-07-03 16:25:34+00:00 |
arxivサイト | arxiv_id(pdf) |