要約
近年、基礎モデル(FM)の進歩はパラダイムシフトをもたらし、世界中の様々な分野に革命をもたらしている。このようなモデルの学習に使用される一般的なオプティマイザは、確率的勾配降下ベースのアルゴリズムであり、収束の遅さや収束のための厳しい仮定といった固有の限界に直面している。特に、分散環境から生じるデータの不均一性は、その理論的・数値的性能に大きな課題をもたらす。本論文では、スケーラブルな並列計算を可能にし、様々なセカンドモーメント方式をサポートするアルゴリズム、PISA({P}preconditioned {I}nexact {S}tochastic {A}lternating Direction Method of Multipliers)を開発する。厳密な理論的保証に基づくこのアルゴリズムは、勾配のリプシッツ連続性のみの仮定で収束するため、確率的手法で一般的に課される他の条件を必要としない。この能力により、PISAはデータの不均一性という課題に効果的に取り組むことができる。視覚モデル、大規模言語モデル、強化学習モデル、生成的敵対ネットワーク、リカレント・ニューラル・ネットワークなど、多様なFMの学習や微調整のための包括的な実験評価により、様々な最先端のオプティマイザと比較して、その優れた数値性能が実証されている。
要約(オリジナル)
The recent advancement of foundation models (FMs) has brought about a paradigm shift, revolutionizing various sectors worldwide. The popular optimizers used to train these models are stochastic gradient descent-based algorithms, which face inherent limitations, such as slow convergence and stringent assumptions for convergence. In particular, data heterogeneity arising from distributed settings poses significant challenges to their theoretical and numerical performance. This paper develops an algorithm, PISA ({P}reconditioned {I}nexact {S}tochastic {A}lternating Direction Method of Multipliers), which enables scalable parallel computing and supports various second-moment schemes. Grounded in rigorous theoretical guarantees, the algorithm converges under the sole assumption of Lipschitz continuity of the gradient, thereby removing the need for other conditions commonly imposed by stochastic methods. This capability enables PISA to tackle the challenge of data heterogeneity effectively. Comprehensive experimental evaluations for training or fine-tuning diverse FMs, including vision models, large language models, reinforcement learning models, generative adversarial networks, and recurrent neural networks, demonstrate its superior numerical performance compared to various state-of-the-art optimizers.
arxiv情報
著者 | Shenglong Zhou,Ouya Wang,Ziyan Luo,Yongxu Zhu,Geoffrey Ye Li |
発行日 | 2025-03-03 15:02:37+00:00 |
arxivサイト | arxiv_id(pdf) |