Not All Adapters Matter: Selective Adapter Freezing for Memory-Efficient Fine-Tuning of Language Models

要約

トランスベースの大規模な事前訓練モデルは、大きな成功を収めています。
微調整は、これらのモデルをダウンストリームタスクで活用するための標準的な慣行です。
微調整方法の中で、アダプターチューニングは、ほとんどの訓練を受けたパラメーターを冷凍しながら軽量のトレーニング可能なモジュールを導入することにより、パラメーター効率の高い微調整を提供します。
ただし、既存のアダプターチューニングメソッドは、依然としてかなりのリソースの使用を課しています。
調査を通じて、各アダプターがタスクのパフォーマンスとリソースの使用の両方に不平等に貢献することを示します。
この洞察に動機付けられて、私たちは選択的なアダプター凍結(安全)を提案します。これは、パフォーマンスを維持しながら不必要なリソースの使用を減らすために、あまり重要でないアダプターを早期に徐々に凍結します。
実験では、安全なメモリの使用量、計算量、およびトレーニング時間をそれぞれ42.85 \%、34.59 \%、および11.82 \%減少させ、ベースラインと比較して同等またはより良いタスクパフォ​​ーマンスを達成します。
また、安全なものが正則化効果を誘発し、それにより損失の状況を滑らかにすることを実証します。

要約(オリジナル)

Transformer-based large-scale pre-trained models achieve great success. Fine-tuning is the standard practice for leveraging these models in downstream tasks. Among the fine-tuning methods, adapter-tuning provides a parameter-efficient fine-tuning by introducing lightweight trainable modules while keeping most pre-trained parameters frozen. However, existing adapter-tuning methods still impose substantial resource usage. Through our investigation, we show that each adapter unequally contributes to both task performance and resource usage. Motivated by this insight, we propose Selective Adapter FrEezing (SAFE), which gradually freezes less important adapters early to reduce unnecessary resource usage while maintaining performance. In our experiments, SAFE reduces memory usage, computation amount, and training time by 42.85\%, 34.59\%, and 11.82\%, respectively, while achieving comparable or better task performance compared to the baseline. We also demonstrate that SAFE induces regularization effect, thereby smoothing the loss landscape, which enables the model to generalize better by avoiding sharp minima.

arxiv情報

著者 Hyegang Son,Yonglak Son,Changhoon Kim,Young Geun Kim
発行日 2025-05-15 14:39:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク