Empirical Analysis of Efficient Fine-Tuning Methods for Large Pre-Trained Language Models

要約

下流タスク用に大規模な事前トレーニング済み言語モデルを微調整することは、自然言語処理において依然として重要な課題です。
このペーパーでは、2 つの効率的な微調整方法 (BitFit とアダプター モジュール) を標準のフルモデル微調整と比較する経験的分析を示します。
GLUE ベンチマーク データセット (MRPC、COLA、STS-B) で実施された実験により、いくつかの重要な洞察が明らかになりました。
バイアス項とタスクヘッドのみをトレーニングする BitFit アプローチは、さまざまな量のトレーニング データと時間制約にわたって完全な微調整パフォーマンスを実現します。
わずか 30% のデータでも顕著な安定性を示し、中間データ レベルでの完全な微調整を上回ります。
アダプター モジュールはばらつきが大きく、デフォルト モデルに対するゲインが一貫していません。
この調査結果は、BitFit がパフォーマンスとパラメータ効率の間で魅力的なバランスを提供していることを示しています。
私たちの研究は、モデルのチューニングに関する貴重な視点を提供し、堅牢性を強調し、リソースに制約のあるタスク設定やストリーミング タスク設定の有望な代替手段として BitFit を強調しています。
この分析は、アダプター モジュールなどの技術を安定化する際の未解決の課題を示しながら、大規模な事前トレーニング済みモデルを効率的に適応させるための実用的なガイドラインを提供します。

要約(オリジナル)

Fine-tuning large pre-trained language models for downstream tasks remains a critical challenge in natural language processing. This paper presents an empirical analysis comparing two efficient fine-tuning methods – BitFit and adapter modules – to standard full model fine-tuning. Experiments conducted on GLUE benchmark datasets (MRPC, COLA, STS-B) reveal several key insights. The BitFit approach, which trains only bias terms and task heads, matches full fine-tuning performance across varying amounts of training data and time constraints. It demonstrates remarkable stability even with only 30\% of data, outperforming full fine-tuning at intermediate data levels. Adapter modules exhibit high variability, with inconsistent gains over default models. The findings indicate BitFit offers an attractive balance between performance and parameter efficiency. Our work provides valuable perspectives on model tuning, emphasizing robustness and highlighting BitFit as a promising alternative for resource-constrained or streaming task settings. The analysis offers actionable guidelines for efficient adaptation of large pre-trained models, while illustrating open challenges in stabilizing techniques like adapter modules.

arxiv情報

著者 Nigel Doering,Cyril Gorlla,Trevor Tuttle,Adhvaith Vijay
発行日 2024-01-08 17:44:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク