Adaptive Rank Allocation for Federated Parameter-Efficient Fine-Tuning of Language Models

要約

事前に訓練された言語モデル(PLMS)は、最新の自然言語処理(NLP)における優位性と汎用性を実証し、さらに微調整を通じてさまざまな下流タスクに効果的に適応しています。
フェデレーションパラメーター効率の高い微調整(FEDPEFT)は、モバイルデバイス上のPLMSの分散トレーニングにおけるプライバシーと効率の課題に対処するための有望なソリューションとして浮上しています。
ただし、測定により、FedPeftの2つの重要な制限が明らかになりました。不均一なデータは、パフォーマンスの大幅な劣化につながり、固定パラメーター構成により通信の非効率性が発生します。
これらの制限を克服するために、言語モデルのパラメーター効率の高い微調整のための新しいフェデレーション適応ランク割り当てであるFedaraを提案します。
具体的には、FedARAは、柔軟性と表現力を高めるために、切り捨てられた特異値分解(SVD)適応を採用し、データの不均一性の悪影響を大幅に軽減します。
その後、動的なランク割り当てを利用して、重要なランクを徐々に特定し、コミュニケーション効率を効果的に改善します。
最後に、ランクベースのモジュール剪定を活用して非アクティブモジュールを削除し、各ラウンドでローカルトレーニング時間とピークメモリ使用量を着実に削減します。
広範な実験では、FedARAがデータの不均一性の下でさまざまなデータセットで平均8.49 \%、強いベースラインを1.49%で6.95%\%で一貫してアウトパフォームし、通信効率を2.40 \(\ times \)で大幅に改善することが示されています。
さらに、AGX Orin、Orin Nano、およびRaspberry Pi 5デバイスの実験は、それぞれ最大48.90 \%および46.95 \%までの総トレーニング時間とエネルギー消費の大幅な減少を示しています。

要約(オリジナル)

Pre-trained Language Models (PLMs) have demonstrated their superiority and versatility in modern Natural Language Processing (NLP), effectively adapting to various downstream tasks through further fine-tuning. Federated Parameter-Efficient Fine-Tuning (FedPEFT) has emerged as a promising solution to address privacy and efficiency challenges in distributed training for PLMs on mobile devices. However, our measurements reveal two key limitations of FedPEFT: heterogeneous data leads to significant performance degradation, and a fixed parameter configuration results in communication inefficiency. To overcome these limitations, we propose FedARA, a novel Federated Adaptive Rank Allocation for parameter-efficient fine-tuning of language models. Specifically, FedARA employs truncated singular value decomposition (SVD) adaptation to enhance flexibility and expressiveness, significantly mitigating the adverse effects of data heterogeneity. Subsequently, it utilizes dynamic rank allocation to progressively identify critical ranks, effectively improving communication efficiency. Lastly, it leverages rank-based module pruning to remove inactive modules, steadily reducing local training time and peak memory usage in each round. Extensive experiments show that FedARA consistently outperforms weak baselines by an average of 8.49\% and strong baselines by 6.95\% across various datasets under data heterogeneity while significantly improving communication efficiency by 2.40\(\times\). Moreover, experiments on AGX Orin, Orin Nano and Raspberry Pi 5 devices demonstrate substantial decreases in total training time and energy consumption by up to 48.90\% and 46.95\%, respectively.

arxiv情報

著者 Fei Wu,Jia Hu,Geyong Min,Shiqiang Wang
発行日 2025-01-24 11:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, cs.NI パーマリンク