DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training

要約

ゼロ次 (ZO) 最適化は、一次 (FO) 情報の取得が困難または不可能な場合に機械学習 (ML) 問題を解決するための一般的な手法となっています。
ただし、ZO 最適化のスケーラビリティは未解決の問題のままです。その使用は主に、サンプルごとの敵対的攻撃の生成など、比較的小規模な ML 問題に限定されています。
私たちの知る限り、パフォーマンスを大幅に低下させることなくディープ ニューラル ネットワーク (DNN) をトレーニングする際の ZO 最適化の有効性を実証したこれまでの研究はありません。
この障害を克服するために、私たちは 3 つの主要なイノベーションを通じて ZO の最適化をゼロから DNN トレーニングに拡張できる原則に基づいた ZO ディープラーニング (DL) フレームワークである DeepZero を開発しました。
まず、トレーニング精度と計算効率において、ランダム化されたベクトルごとの勾配推定よりも座標ごとの勾配推定 (CGE) の利点を示します。
第 2 に、CGE で事前にスパース DL を調査および活用するために、有限差分のみを使用してモデルの枝刈り方法論を拡張する、スパース誘発 ZO トレーニング プロトコルを提案します。
第三に、ZO トレーニングの実践的な実装を進めるために、特徴の再利用と前方並列化の方法を開発します。
私たちの広範な実験により、DeepZero が CIFAR-10 でトレーニングされた ResNet-20 上で最先端 (SOTA) 精度を達成し、初めて FO トレーニング パフォーマンスに近づいたことが示されています。
さらに、認定された敵対的防御および DL ベースの偏微分方程式誤り訂正のアプリケーションにおける DeepZero の実用性を示し、SOTA と比較して 10 ~ 20% の改善を達成しました。
私たちの結果は、スケーラブルな ZO 最適化に関する将来の研究に刺激を与え、ブラック ボックスを使用した DL の進歩に貢献すると信じています。
コードは https://github.com/OPTML-Group/DeepZero で入手できます。

要約(オリジナル)

Zeroth-order (ZO) optimization has become a popular technique for solving machine learning (ML) problems when first-order (FO) information is difficult or impossible to obtain. However, the scalability of ZO optimization remains an open problem: Its use has primarily been limited to relatively small-scale ML problems, such as sample-wise adversarial attack generation. To our best knowledge, no prior work has demonstrated the effectiveness of ZO optimization in training deep neural networks (DNNs) without a significant decrease in performance. To overcome this roadblock, we develop DeepZero, a principled ZO deep learning (DL) framework that can scale ZO optimization to DNN training from scratch through three primary innovations. First, we demonstrate the advantages of coordinatewise gradient estimation (CGE) over randomized vector-wise gradient estimation in training accuracy and computational efficiency. Second, we propose a sparsityinduced ZO training protocol that extends the model pruning methodology using only finite differences to explore and exploit the sparse DL prior in CGE. Third, we develop the methods of feature reuse and forward parallelization to advance the practical implementations of ZO training. Our extensive experiments show that DeepZero achieves state-of-the-art (SOTA) accuracy on ResNet-20 trained on CIFAR-10, approaching FO training performance for the first time. Furthermore, we show the practical utility of DeepZero in applications of certified adversarial defense and DL-based partial differential equation error correction, achieving 10-20% improvement over SOTA. We believe our results will inspire future research on scalable ZO optimization and contribute to advancing DL with black box. Codes are available at https://github.com/OPTML-Group/DeepZero.

arxiv情報

著者 Aochuan Chen,Yimeng Zhang,Jinghan Jia,James Diffenderfer,Jiancheng Liu,Konstantinos Parasyris,Yihua Zhang,Zheng Zhang,Bhavya Kailkhura,Sijia Liu
発行日 2024-03-15 15:28:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク