Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning

要約

タスク固有のデータセットの微調整は、さまざまな下流タスクに事前トレーニングされた LLM の強力な機能を利用する、広く受け入れられているパラダイムです。
LLM 微調整の人気とそれに伴うプライバシーの問題により、タスク固有のデータセットのプライバシーを保護するために、事前トレーニング済み LLM の差分プライベート (DP) 微調整がますます注目を集めています。
DP LLM 微調整方法の設計の中核にあるのは、プライバシー、ユーティリティ、およびスケーラビリティの間の満足のいくトレードオフです。
既存のメソッドのほとんどは、DP-SGD の独創的な成果に基づいて構築されています。
DP-SGD のスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGD ベースの微調整方法は残念ながら SGD 固有の非効率性によって制限されます。
この論文では、より効率的な 0 次勾配で勾配を近似することで SGD のスケーラビリティのボトルネックを回避する、LLM 事前トレーニングに対する DP 0 次法の可能性を調査します。
この論文では、ゼロ次法を SGD のドロップイン代替品として扱うのではなく、理論的および経験的両方の包括的な研究を提示します。
まず、主要なハイパーパラメータを動的にスケジュールする段階的 DP ゼロ次法を提案します。
この設計は、DP ランダム摂動と 0 次法の勾配近似誤差の間の相乗効果、および軌道の微調整に対するその効果に基づいています。
2 番目に、追加のデータや追加のプライバシー予算を必要としないデータフリー プルーニング手法を再利用することで特定されるトレーニング可能なパラメーターを削減することで、スケーラビリティをさらに強化します。
提案された両方の方法について理論的分析を提供します。
私たちは、エンコーダーのみのマスク言語モデルとデコーダーのみの自己回帰言語モデルの両方について広範な実証分析を実施し、スケーラビリティと実用性の点で優れた結果を達成しました。

要約(オリジナル)

Finetuning on task-specific datasets is a widely-embraced paradigm of harnessing the powerful capability of pretrained LLMs for various downstream tasks. Due to the popularity of LLMs finetuning and its accompanying privacy concerns, differentially private (DP) finetuning of pretrained LLMs has garnered increasing attention to safeguarding the privacy of task-specific datasets. Lying at the design core of DP LLM finetuning methods is the satisfactory tradeoff between privacy, utility, and scalability. Most existing methods build upon the seminal work of DP-SGD. Despite pushing the scalability of DP-SGD to its limit, DP-SGD-based finetuning methods are unfortunately limited by the inherent inefficiency of SGD. In this paper, we investigate the potential of DP zeroth-order methods for LLM pretraining, which avoids the scalability bottleneck of SGD by approximating the gradient with the more efficient zeroth-order gradient. Rather than treating the zeroth-order method as a drop-in replacement for SGD, this paper presents a comprehensive study both theoretically and empirically. First, we propose the stagewise DP zeroth-order method that dynamically schedules key hyperparameters. This design is grounded on the synergy between DP random perturbation and the gradient approximation error of the zeroth-order method, and its effect on finetuning trajectory. Second, we further enhance the scalability by reducing the trainable parameters that are identified by repurposing a data-free pruning technique requiring no additional data or extra privacy budget. We provide theoretical analysis for both proposed methods. We conduct extensive empirical analysis on both encoder-only masked language model and decoder-only autoregressive language model, achieving impressive results in terms of scalability and utility.

arxiv情報

著者 Z Liu,J Lou,W Bao,Z Qin,K Ren
発行日 2024-02-12 17:24:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク