要約
学習済み言語モデルのサイズが大きくなるにつれて、タスク適応データ上でそのパラメータを完全に微調整することはますます非現実的になる。この課題に対処するため、言語モデルの低ランク適応のためのいくつかの手法が提案されている。例えば、LoRAは、学習可能な低ランク分解行列を、アダプタと呼ばれる事前学習済みモデルの一部のパラメータのみに組み込む手法である。このアプローチは、全てのパラメータやアダプタを微調整するのに比べ、学習可能なパラメータの数を大幅に削減する。本研究では、データプライバシーの観点から低ランク適応法を考察する。LoRAで使用される低ランク適応は、DPSGDアルゴリズムが行っているように、ノイズの多いバッチ勾配で適応を微調整することと等価であることを理論的に示す。また、注入されるノイズの分散を適応ランクの減少関数として定量化する。注入されたノイズ分布と、同じ分散を持つガウスノイズ分布との間の全変動距離に関するBerry-Esseen型の境界を確立することにより、低ランク適応のダイナミクスが、DPSGDがアダプタを無視して実行される場合に非常に近いことを示す。我々の理論的知見と実験結果から、低ランク適応は、微調整データに対するメンバーシップ推論攻撃に対して頑健であることを示す。
要約(オリジナル)
As pre-trained language models grow in size, full fine-tuning their parameters on task adaptation data becomes increasingly impractical. To address this challenge, some methods for low-rank adaptation of language models have been proposed, e.g. LoRA, which incorporates trainable low-rank decomposition matrices into only some parameters of the pre-trained model, called adapters. This approach significantly reduces the number of trainable parameters compared to fine-tuning all parameters or adapters. In this work, we look at low-rank adaptation method from the lens of data privacy. We show theoretically that the low-rank adaptation used in LoRA is equivalent to fine-tuning adapters with noisy batch gradients – just like what DPSGD algorithm does. We also quantify the variance of the injected noise as a decreasing function of adaptation rank. By establishing a Berry-Esseen type bound on the total variation distance between the injected noise distribution and a Gaussian noise distribution with the same variance, we show that the dynamics of low-rank adaptation is very close to when DPSGD is performed w.r.t the adapters. Following our theoretical findings and approved by our experimental results, we show that low-rank adaptation provides robustness to membership inference attacks w.r.t the fine-tuning data.
arxiv情報
著者 | Saber Malekmohammadi,Golnoosh Farnadi |
発行日 | 2025-06-03 16:03:24+00:00 |
arxivサイト | arxiv_id(pdf) |