要約
低ランク適応 (LoRA) のようなパラメーター効率の良い微調整方法は、事前トレーニング済み言語モデル (LM) を微調整する計算コストを削減することを目的としています。
これらの低ランク設定によって可能になる、さらに効率的な最適化戦略である高速フォワードを提案します。これは、トレーニングの大部分を加速するためのシンプルで効果的なアプローチです。
Fast Forward ステージでは、小さな検証セットで損失の改善が止まるまで、最新のオプティマイザー ステップを繰り返します。
通常の最適化ステップと高速転送ステージを交互に行うことにより、高速転送では、Adam を使用した標準 SGD と比較して、FLOP が最大 87\% 削減され、トレイン時間が最大 81\% 削減されます。
さまざまなタスクでさまざまなモデルを微調整することで Fast Forward を検証し、モデルのパフォーマンスを損なうことなくトレーニングを高速化できることを実証します。
さらに、Fast Forward をいつどのように適用するかを分析します。
要約(オリジナル)
Parameter efficient finetuning methods like low-rank adaptation (LoRA) aim to reduce the computational costs of finetuning pretrained Language Models (LMs). Enabled by these low-rank settings, we propose an even more efficient optimization strategy: Fast Forward, a simple and effective approach to accelerate large segments of training. In a Fast Forward stage, we repeat the most recent optimizer step until the loss stops improving on a tiny validation set. By alternating between regular optimization steps and Fast Forward stages, Fast Forward provides up to an 87\% reduction in FLOPs and up to an 81\% reduction in train time over standard SGD with Adam. We validate Fast Forward by finetuning various models on different tasks and demonstrate that it speeds up training without compromising model performance. Additionally, we analyze when and how to apply Fast Forward.
arxiv情報
| 著者 | Adir Rahamim,Naomi Saphra,Sara Kangaslahti,Yonatan Belinkov |
| 発行日 | 2024-09-06 11:53:37+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google