FTFT: efficient and robust Fine-Tuning by transFerring Training dynamics

要約

さまざまな自然言語処理 (NLP) タスクで大規模な事前トレーニング済み言語モデル (PLM) を微調整することに大成功を収めているにもかかわらず、配布外 (OOD) や敵対的な入力の影響を受けやすいままです。
データ マップ (DM) は、微調整された PLM の堅牢性を強化する、シンプルかつ効果的なデュアル モデル アプローチです。これには、元のトレーニング セット (つまり、参照モデル) でモデルを微調整し、重要なトレーニング サンプルの指定された部分を選択することが含まれます。
参照モデルのトレーニングダイナミクスに従って、これらの選択された例 (つまり、メインモデル) で同じモデルを微調整します。
ただし、同じモデルを 2 回微調整する必要があるという欠点があり、大規模なモデルでは計算コストが高くなります。
この論文では、まず、1) トレーニング ダイナミクスがさまざまなモデル サイズやさまざまな事前トレーニング方法に高度に移行可能であること、2) DM を使用して微調整された主要モデルは、従来の経験的リスク最小化 (ERM) を使用した場合よりも速く学習することを示します。
これらの観察に基づいて、我々は DM 法に基づく新しい微調整アプローチ、つまりトランスフェリング トレーニング ダイナミクスによる微調整 (FTFT) を提案します。
DM と比較して、FTFT はより効率的な参照モデルを使用し、より少ないステップでより有能なメイン モデルを微調整します。
私たちの実験によると、FTFT はトレーニング コストの半分未満でありながら、ERM よりも優れた汎化堅牢性を実現します。

要約(オリジナル)

Despite the massive success of fine-tuning large Pre-trained Language Models (PLMs) on a wide range of Natural Language Processing (NLP) tasks, they remain susceptible to out-of-distribution (OOD) and adversarial inputs. Data map (DM) is a simple yet effective dual-model approach that enhances the robustness of fine-tuned PLMs, which involves fine-tuning a model on the original training set (i.e. reference model), selecting a specified fraction of important training examples according to the training dynamics of the reference model, and fine-tuning the same model on these selected examples (i.e. main model). However, it suffers from the drawback of requiring fine-tuning the same model twice, which is computationally expensive for large models. In this paper, we first show that 1) training dynamics are highly transferable across different model sizes and different pre-training methods, and that 2) main models fine-tuned using DM learn faster than when using conventional Empirical Risk Minimization (ERM). Building on these observations, we propose a novel fine-tuning approach based on the DM method: Fine-Tuning by transFerring Training dynamics (FTFT). Compared with DM, FTFT uses more efficient reference models and then fine-tunes more capable main models for fewer steps. Our experiments show that FTFT achieves better generalization robustness than ERM while spending less than half of the training cost.

arxiv情報

著者 Yupei Du,Albert Gatt,Dong Nguyen
発行日 2023-10-10 12:53:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク