FeDeRA:Efficient Fine-tuning of Language Models in Federated Learning Leveraging Weight Decomposition

要約

事前トレーニングされた言語モデル (PLM) は、微調整後のさまざまな下流タスクで優れたパフォーマンスを示しました。
それにもかかわらず、ユーザーのプライバシーをめぐる懸念の高まりにより、広範なデータ収集に依存した一元的なトレーニングに大きな課題が生じています。
その解決策として、クライアント上でトレーニングのみを必要とし、データを共有せずにサーバー上で重みを集計するFederated Learning(FL)が登場しました。
ただし、PLM のパラメータ サイズが大きいため、クライアント デバイスの計算リソースに大きな負担がかかり、また、高額な通信費も発生します。
FL に Parameter-Efficient Fine-Tuning (PEFT) を導入すると、この問題に効果的に対処できます。
ただし、フェデレーテッド ラーニングにおける非 IID データは、PEFT メソッドとフル パラメーター ファインチューニング (FT) の間のパフォーマンスにギャップをもたらすことが観察されています。
これを克服するために、フロリダ州の LoRA 手法を改良した FeDeRA を提案します。
FeDeRA は LoRA と同じアダプター モジュールを使用します。
ただし、違いは、FeDeRA が事前学習行列に対して特異値分解 (SVD) を実行し、その主成分を選択することによってアダプター モジュールを初期化する点にあります。
私たちは、RoBERTa と DeBERTaV3 を使用して 3 つのタスクと 6 つのデータセットに対して広範な実験を実施し、FT と他の 3 つの異なる PEFT 手法を含む手法を比較しました。
FeDeRA は他のすべての PEFT メソッドよりも優れたパフォーマンスを発揮し、FT メソッドと同等か、さらにはそれを上回ります。
また、Jetson AGX Orin にフェデレーテッド ラーニングを導入し、特定のタスクで目標精度を達成するためにさまざまな方法で必要な時間を比較しました。
FT と比較して、FeDeRA は、RoBERTa と DeBERTaV3 を使用した 3 つのタスクで、トレーニング時間をそれぞれ 95.9%、97.9%、96.9%、97.3%、96.5%、96.5% 削減しました。
全体的な実験は、FeDeRA が効率を維持しながら良好なパフォーマンスを達成することを示しています。

要約(オリジナル)

Pre-trained Language Models (PLMs) have shown excellent performance on various downstream tasks after fine-tuning. Nevertheless, the escalating concerns surrounding user privacy have posed significant challenges to centralized training reliant on extensive data collection. Federated learning(FL), which only requires training on the clients and aggregates weights on the server without sharing data, has emerged as a solution. However, the substantial parameter size of PLMs places a significant burden on the computational resources of client devices, while also leading to costly communication expenses. Introducing Parameter-Efficient Fine-Tuning(PEFT) into FL can effectively address this problem. However, we observe that the non-IID data in federated learning leads to a gap in performance between the PEFT method and full parameter fine-tuning(FT). To overcome this, we propose FeDeRA, an improvement over the LoRA method in FL. FeDeRA uses the same adapter module as LoRA. However, the difference lies in FeDeRA’s initialization of the adapter module by performing Singular Value Decomposition (SVD) on the pre-trained matrix and selecting its principal components. We conducted extensive experiments, using RoBERTa and DeBERTaV3, on three tasks and six datasets, comparing the methods including FT and the other three different PEFT methods. FeDeRA outperforms all other PEFT methods and is comparable to or even surpasses the performance of FT methods. We also deployed federated learning on Jetson AGX Orin and compared the time required by different methods to achieve the target accuracy on specific tasks. Compared to FT, FeDeRA reduces the training time by 95.9%, 97.9%, 96.9%, and 97.3%, 96.5%, and 96.5% respectively on three tasks using RoBERTa and DeBERTaV3. The overall experiments indicate that FeDeRA achieves good performance while also maintaining efficiency.

arxiv情報

著者 Yuxuan Yan,Shunpu Tang,Zhiguo Shi,Qianqian Yang
発行日 2024-04-29 16:42:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク