Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting

要約

テキスト音声合成モデルの適応が動機となっていますが、より一般的なパラメータ効率の良い微調整 (PEFT) がそのような適応を行うための適切なフレームワークであると主張します。
ただし、壊滅的な忘却は依然として PEFT の問題であり、事前トレーニング済みモデルの固有の機能にダメージを与えます。
我々は、微調整された層のパラメータシフトが微分的に計算できる限り、既存のベイジアン学習技術をPEFTに適用して壊滅的な忘却を防ぐことができることを実証します。
言語モデリングと音声合成タスクに関する原則的な一連の実験では、対角およびクロネッカー因子分解アプローチを含む確立されたラプラス近似を利用して、低ランク適応 (LoRA) で PEFT を正則化し、トレーニング前の知識保存におけるパフォーマンスを比較します。
私たちの結果は、微調整パフォーマンスを低下させることなく壊滅的な忘却を私たちの方法で克服できることを示しており、クロネッカー因数分解近似を使用すると、対角線近似よりもトレーニング前の知識がよりよく保存されます。

要約(オリジナル)

Although motivated by the adaptation of text-to-speech synthesis models, we argue that more generic parameter-efficient fine-tuning (PEFT) is an appropriate framework to do such adaptation. However, catastrophic forgetting remains an issue with PEFT, damaging the pre-trained model’s inherent capabilities. We demonstrate that existing Bayesian learning techniques can be applied to PEFT to prevent catastrophic forgetting as long as the parameter shift of the fine-tuned layers can be calculated differentiably. In a principled series of experiments on language modeling and speech synthesis tasks, we utilize established Laplace approximations, including diagonal and Kronecker factored approaches, to regularize PEFT with the low-rank adaptation (LoRA) and compare their performance in pre-training knowledge preservation. Our results demonstrate that catastrophic forgetting can be overcome by our methods without degrading the fine-tuning performance, and using the Kronecker factored approximations produces a better preservation of the pre-training knowledge than the diagonal ones.

arxiv情報

著者 Haolin Chen,Philip N. Garner
発行日 2024-02-19 15:26:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.AS パーマリンク