Effectiveness of Data Augmentation for Parameter Efficient Tuning with Limited Data

要約

最近の研究では、事前トレーニング済み言語モデルでプレフィックス チューニング (または P チューニング) などのパラメーターの効率的なチューニング手法を使用すると、トレーニング可能なパラメーターを大幅に削減しながら、ファインチューニングと同等またはそれ以上のパフォーマンスを実現できることが実証されています。
それにもかかわらず、低データ体制下で学習を改善するための一般的な戦略であるデータ拡張のコンテキストにおけるこのような方法の有効性は十分に検討されていません。
この論文では、データ不足下で 2 つの一般的なパラメータ効率の良い調整方法である P チューニング v2 と LoRA を使用した場合の、いくつかの一般的なタスクに依存しないデータ拡張手法 (EDA、Back Translation、Mixup) の有効性を検証します。
データ拡張を使用して P チューニングと LoRA モデルのパフォーマンスを向上させることができることを示しますが、各手法の有効性は異なり、特定の手法では、特に大規模なモデルを使用する場合やより困難なタスクを実行する場合に、パフォーマンスの顕著な低下につながる可能性があります。
上記の動作を理解するのに役立つように、微調整と比較した P チューニングの文表現をさらに分析し、P チューニングが一般に、異なるクラスの拡張データから文の埋め込みを分離する機能がより限定的であることを明らかにします。
さらに、大幅に変更されたデータではパフォーマンスが低下します。
ただし、単純な対比損失関数を追加することで、プレフィックス調整におけるこのような問題の軽減に役立ち、拡張されたデータのパフォーマンスが大幅に向上することを示します。

要約(オリジナル)

Recent work has demonstrated that using parameter efficient tuning techniques such as prefix tuning (or P-tuning) on pretrained language models can yield performance that is comparable or superior to fine-tuning while dramatically reducing trainable parameters. Nevertheless, the effectiveness of such methods under the context of data augmentation, a common strategy to improve learning under low data regimes, has not been fully explored. In this paper, we examine the effectiveness of several popular task-agnostic data augmentation techniques, i.e., EDA, Back Translation, and Mixup, when using two general parameter efficient tuning methods, P-tuning v2 and LoRA, under data scarcity. We show that data augmentation can be used to boost the performance of P-tuning and LoRA models, but the effectiveness of each technique varies and certain methods can lead to a notable degradation in performance, particularly when using larger models and on harder tasks. We further analyze the sentence representations of P-tuning compared to fine-tuning to help understand the above behaviour, and reveal how P-tuning generally presents a more limited ability to separate the sentence embeddings from different classes of augmented data. In addition, it displays poorer performance on heavily altered data. However, we demonstrate that by adding a simple contrastive loss function it can help mitigate such issues for prefix tuning, resulting in sizable improvements to augmented data performance.

arxiv情報

著者 Stephen Obadinma,Hongyu Guo,Xiaodan Zhu
発行日 2023-06-29 06:13:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク