MAST: Model-Agnostic Sparsified Training

要約

ブラックボックス関数として機械学習モデルの損失を最小限に抑える従来の方法とは異なる、新しい最適化問題の定式化を紹介します。
従来の定式化とは異なり、提案されたアプローチには、最初に事前トレーニングされたモデルとランダムなスケッチ演算子が明示的に組み込まれており、トレーニング中にモデルと勾配の両方のスパース化が可能になります。
提案された目的関数の洞察力に富んだ特性を確立し、標準的な定式化との関係を強調します。
さらに、一般サンプリングを使用した SGD、分散バージョン、分散削減手法を使用した SGD など、新しい問題定式化に適応した確率的勾配降下法 (SGD) 法のいくつかの変形を紹介します。
より厳密な収束率を達成し、仮定を緩和して、理論原理と実際のアプリケーションの間のギャップを橋渡しし、ドロップアウト トレーニングやスパース トレーニングなどのいくつかの重要なテクニックをカバーします。
この研究は、スパース化を意識した最適化アプローチを通じてモデル トレーニングの理論的理解を強化する有望な機会を提供します。

要約(オリジナル)

We introduce a novel optimization problem formulation that departs from the conventional way of minimizing machine learning model loss as a black-box function. Unlike traditional formulations, the proposed approach explicitly incorporates an initially pre-trained model and random sketch operators, allowing for sparsification of both the model and gradient during training. We establish insightful properties of the proposed objective function and highlight its connections to the standard formulation. Furthermore, we present several variants of the Stochastic Gradient Descent (SGD) method adapted to the new problem formulation, including SGD with general sampling, a distributed version, and SGD with variance reduction techniques. We achieve tighter convergence rates and relax assumptions, bridging the gap between theoretical principles and practical applications, covering several important techniques such as Dropout and Sparse training. This work presents promising opportunities to enhance the theoretical understanding of model training through a sparsification-aware optimization approach.

arxiv情報

著者 Yury Demidovich,Grigory Malinovsky,Egor Shulgin,Peter Richtárik
発行日 2023-11-27 18:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, math.OC パーマリンク