Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning

要約

タスク固有のデータセットの微調整は、さまざまな下流タスクに事前トレーニングされた LLM の強力な機能を活用する、広く受け入れられているパラダイムです。
LLM の微調整の人気とそれに伴うプライバシーの問題のため、事前トレーニング済み LLM の差分プライベート (DP) 微調整は、タスク固有のデータセットのプライバシーを保護するために広く使用されています。
DP LLM 微調整方法の設計の中核にあるのは、プライバシー、ユーティリティ、およびスケーラビリティの間の満足のいくトレードオフです。
既存のメソッドのほとんどは、DP-SGD の独創的な成果に基づいて構築されています。
DP-SGD のスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGD ベースの微調整方法は残念ながら SGD 固有の非効率性によって制限されます。
この論文では、より効率的な 0 次勾配で勾配を近似することで SGD のスケーラビリティのボトルネックを回避する、LLM 事前トレーニングに対する DP 0 次法の可能性を調査します。
この論文では、ゼロ次法を SGD のドロップイン代替品として扱うのではなく、理論的および経験的両方の包括的な研究を提示します。
まず、主要なハイパーパラメータを動的にスケジュールする段階的 DP ゼロ次法 (DP-ZOSO) を提案します。
この設計は、DP ランダム摂動と 0 次法の勾配近似誤差との相乗効果、および軌道の微調整に対するその効果に基づいています。
提案された両方の方法について理論的分析を提供します。
私たちは、エンコーダーのみのマスク言語モデルとデコーダーのみの自己回帰言語モデルの両方について広範な実証分析を実施し、タスクのクラスに関係なく、スケーラビリティと実用性の点で目覚ましい結果を達成しました (DPZero と比較して、DP-ZOPO は $4.5\%$ を向上させます)
SST-5、RoBERTa-Large を使用した MNLI では $5.5\%$、CB では 9.2\%、BoolQ では 3.9\%
OPT-2.7b ($\epsilon=4$ の場合) は、より複雑なタスクでのパフォーマンスの大幅な向上を示します)。

要約(オリジナル)

Fine-tuning on task-specific datasets is a widely-embraced paradigm of harnessing the powerful capability of pretrained LLMs for various downstream tasks. Due to the popularity of LLMs fine-tuning and its accompanying privacy concerns, differentially private (DP) fine-tuning of pretrained LLMs has been widely used to safeguarding the privacy of task-specific datasets. Lying at the design core of DP LLM fine-tuning methods is the satisfactory tradeoff among privacy, utility, and scalability. Most existing methods build upon the seminal work of DP-SGD. Despite pushing the scalability of DP-SGD to its limit, DP-SGD-based fine-tuning methods are unfortunately limited by the inherent inefficiency of SGD. In this paper, we investigate the potential of DP zeroth-order methods for LLM pretraining, which avoids the scalability bottleneck of SGD by approximating the gradient with the more efficient zeroth-order gradient. Rather than treating the zeroth-order method as a drop-in replacement for SGD, this paper presents a comprehensive study both theoretically and empirically. First, we propose the stagewise DP zeroth-order method (DP-ZOSO) that dynamically schedules key hyperparameters. This design is grounded on the synergy between DP random perturbation and the gradient approximation error of the zeroth-order method, and its effect on fine-tuning trajectory. We provide theoretical analysis for both proposed methods. We conduct extensive empirical analysis on both encoder-only masked language model and decoder-only autoregressive language model, achieving impressive results in terms of scalability and utility regardless of the class of tasks (compared with DPZero, DP-ZOPO improves $4.5\%$ on SST-5, $5.5\%$ on MNLI with RoBERTa-Large and 9.2\% on CB, 3.9\% on BoolQ with OPT-2.7b when $\epsilon=4$, demonstrates more significant enhancement in performance on more complicated tasks).

arxiv情報

著者 Z Liu,J Lou,W Bao,Y Hu,B Li,Z Qin,K Ren
発行日 2024-12-02 12:29:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク