Gradient Sparsification For Masked Fine-Tuning of Transformers

要約

事前トレーニングされた自己教師あり言語モデルの微調整は、下流タスクへの転移学習に広く採用されています。
微調整は、事前学習済みネットワークの勾配を凍結し、新しく追加された分類層の勾配のみを更新することによって、またはすべてのパラメーターに対して勾配更新を実行することによって実現できます。
段階的なフリーズ解除では、トレーニング中にレイヤー全体のグラデーションを段階的にフリーズ解除することで、2 つの間のトレードオフが行われます。
これは、ストレージとトレーニング速度と汎化パフォーマンスとの間のトレードオフを実現する効果的な戦略でした。
ただし、微調整のパフォーマンスを向上させる可能性がある段階的なフリーズ解除のスパース バリアントと比較して、トレーニング全体を通じてレイヤーを徐々にフリーズ解除することが最適であるかどうかは明らかではありません。
この論文では、全体的な微調整されたパフォーマンスを向上させるために、事前トレーニングされた言語モデルを正規化するために勾配を確率的にマスクすることを提案します。
GradDrop とそのバリアントを紹介します。これは、逆方向パス中に勾配をマスクし、勾配ノイズとして機能する勾配スパース化メソッドのクラスです。
GradDrop は、段階的な凍結とは異なり、まばらで確率的です。
XLMR-Large を使用した多言語 XGLUE ベンチマークに関する広範な実験では、GradDrop が中間事前トレーニングに追加の翻訳済みデータを使用する方法に対抗し、標準的な微調整や段階的なフリーズ解除よりも優れたパフォーマンスを発揮することが示されています。
事後分析では、リソースが不足している言語など、トレーニングされていない言語で GradDrop がどのようにパフォーマンスを向上させるかを示します。

要約(オリジナル)

Fine-tuning pretrained self-supervised language models is widely adopted for transfer learning to downstream tasks. Fine-tuning can be achieved by freezing gradients of the pretrained network and only updating gradients of a newly added classification layer, or by performing gradient updates on all parameters. Gradual unfreezing makes a trade-off between the two by gradually unfreezing gradients of whole layers during training. This has been an effective strategy to trade-off between storage and training speed with generalization performance. However, it is not clear whether gradually unfreezing layers throughout training is optimal, compared to sparse variants of gradual unfreezing which may improve fine-tuning performance. In this paper, we propose to stochastically mask gradients to regularize pretrained language models for improving overall fine-tuned performance. We introduce GradDrop and variants thereof, a class of gradient sparsification methods that mask gradients during the backward pass, acting as gradient noise. GradDrop is sparse and stochastic unlike gradual freezing. Extensive experiments on the multilingual XGLUE benchmark with XLMR-Large show that GradDrop is competitive against methods that use additional translated data for intermediate pretraining and outperforms standard fine-tuning and gradual unfreezing. A post-analysis shows how GradDrop improves performance with languages it was not trained on, such as under-resourced languages.

arxiv情報

著者 James O’ Neill,Sourav Dutta
発行日 2023-07-19 16:13:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク