SparseOptimizer: Sparsify Language Models through Moreau-Yosida Regularization and Accelerate via Compiler Co-design

要約

この論文では、Moreau-Yosida 正則化を利用して BERT、ALBERT、GPT などの大規模な言語モデルにスパース性を自然に誘導する新しい深層学習オプティマイザーである SparseOptimizer を紹介します。
SparseOptimizer の設計の鍵となるのは、最適化プロセス内で直接スパース性を与える埋め込み収縮演算子です。
この演算子は、健全な理論的フレームワークに裏付けられており、分析ソリューションが含まれているため、オプティマイザーの堅牢性と有効性が強化されています。
重要なのは、SparseOptimizer のプラグ アンド プレイ機能により、コード変更の必要性がなくなり、広範囲にわたる大規模な言語モデルに広く適応できるツールとなることです。
GLUE、RACE、SQuAD1、SQuAD2 などのベンチマーク データセットの経験的評価により、SparseBERT と SparseALBERT は、SparseOptimizer を使用してスパース化すると、パラメーター数を大幅に削減しながら、対応する高密度の BERT と ALBERT に匹敵するパフォーマンスを達成することが確認されています。
さらに、この研究では、革新的なオプティマイザーとコンパイラーの共同設計戦略を提案し、Pytorch、TensorFlow、
適切に設計されたコンパイラと組み合わせると、SparseBERT でそれぞれ LLVM 汎用コンパイルと LLVM 汎用コンパイルが実行されます。
この研究は、効率的でスケーラブルで高性能な大規模言語モデルの進化における重要な前進を表しており、この分野での将来の探索と最適化の前例となっています。
SparseOptimizer コードと SparseALBERT モデルは、論文が受理され次第、一般に公開されます。

要約(オリジナル)

This paper introduces SparseOptimizer, a novel deep learning optimizer that exploits Moreau-Yosida regularization to naturally induce sparsity in large language models such as BERT, ALBERT and GPT. Key to the design of SparseOptimizer is an embedded shrinkage operator, which imparts sparsity directly within the optimization process. This operator, backed by a sound theoretical framework, includes an analytical solution, thereby reinforcing the optimizer’s robustness and efficacy. Crucially, SparseOptimizer’s plug-and-play functionality eradicates the need for code modifications, making it a universally adaptable tool for a wide array of large language models. Empirical evaluations on benchmark datasets such as GLUE, RACE, SQuAD1, and SQuAD2 confirm that SparseBERT and SparseALBERT, when sparsified using SparseOptimizer, achieve performance comparable to their dense counterparts, BERT and ALBERT, while significantly reducing their parameter count. Further, this work proposes an innovative optimizer-compiler co-design strategy, demonstrating the potential of inference acceleration (\textbf{3.37x}, \textbf{6.30x}, and \textbf{7.15x} in comparison with Pytorch, TensorFlow, and LLVM generic compile, respectively) in SparseBERT when paired with an appropriately designed compiler. This study represents a significant step forward in the evolution of efficient, scalable, and high-performing large language models, setting a precedent for future exploration and optimization in this domain. The SparseOptimizer code and SparseALBERT model will be publicly available upon paper acceptance.

arxiv情報

著者 Fu-Ming Guo
発行日 2023-07-18 17:52:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CC, cs.CL, cs.LG, cs.MS パーマリンク