Harmony in Divergence: Towards Fast, Accurate, and Memory-efficient Zeroth-order LLM Fine-tuning

要約

大規模な言語モデル(LLM)はさまざまなタスクにわたって優れていますが、標準的な一次(FO)微調整はかなりのメモリを要求し、実際の展開を大幅に制限します。
最近、Zeroth-Order(ZO)の最適化は、有望なメモリ効率の高いトレーニングパラダイムとして際立っており、後方パスを避け、勾配推定のために前方パスのみに依存し、リソースに制約のシナリオにとって魅力的になりました。
ただし、ZOメソッドは、収束速度と精度の両方でFOメソッドに遅れをとっています。
ギャップを埋めるために、FOおよびZOの最適化の明確な更新パターンを明らかにする新しいレイヤーごとの発散分析を導入します。
調査結果からのFOメソッドの学習能力に似ていることを目指して、\ textbf {di} vergence-driven \ textbf {z} eroth- \ textbf {o} rder(\ textbf {dizo})最適化を提案します。
Dizoは、ZOアップデートへの投影を組み込み、レイヤーごとの個々の最適化ニーズに正確にスケーリングされた多様なマグニチュードアップデートを生成することにより、分岐駆動型のレイヤー適応を実施します。
私たちの結果は、DIZOがスループットを犠牲にすることなく収束に必要な反復を大幅に減らし、さまざまなデータセットでGPU時間を最大48 \%削減することを大幅に減らすことを示しています。
さらに、Dizoは、下流のタスクで微調整されたRoberta-Large、Optシリーズ、およびLlamaシリーズの代表的なZOベースラインを一貫して上回り、場合によっては、メモリ集約型の微調整を上回ります。

要約(オリジナル)

Large language models (LLMs) excel across various tasks, but standard first-order (FO) fine-tuning demands considerable memory, significantly limiting real-world deployment. Recently, zeroth-order (ZO) optimization stood out as a promising memory-efficient training paradigm, avoiding backward passes and relying solely on forward passes for gradient estimation, making it attractive for resource-constrained scenarios. However, ZO method lags far behind FO method in both convergence speed and accuracy. To bridge the gap, we introduce a novel layer-wise divergence analysis that uncovers the distinct update pattern of FO and ZO optimization. Aiming to resemble the learning capacity of FO method from the findings, we propose \textbf{Di}vergence-driven \textbf{Z}eroth-\textbf{O}rder (\textbf{DiZO}) optimization. DiZO conducts divergence-driven layer adaptation by incorporating projections to ZO updates, generating diverse-magnitude updates precisely scaled to layer-wise individual optimization needs. Our results demonstrate that DiZO significantly reduces the needed iterations for convergence without sacrificing throughput, cutting training GPU hours by up to 48\% on various datasets. Moreover, DiZO consistently outperforms the representative ZO baselines in fine-tuning RoBERTa-large, OPT-series, and Llama-series on downstream tasks and, in some cases, even surpasses memory-intensive FO fine-tuning.

arxiv情報

著者 Qitao Tan,Jun Liu,Zheng Zhan,Caiwei Ding,Yanzhi Wang,Jin Lu,Geng Yuan
発行日 2025-02-05 16:03:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク