要約
自己教師あり音声モデルは、偽音声検出において急速に発展している研究トピックです。
多くの事前トレーニング済みモデルは特徴抽出器として機能し、より豊富で高レベルの音声特徴を学習できます。
ただし、事前トレーニングされたモデルを微調整する場合、過度に長いトレーニング時間と大量のメモリ消費という課題がしばしば発生し、完全な微調整にも非常にコストがかかります。
この問題を軽減するために、wav2vec2 モデルに低ランク適応 (LoRA) を適用し、事前トレーニングされたモデルの重みを凍結し、トレーニング可能なランク分解行列をトランスフォーマー アーキテクチャの各層に注入して、トレーニング可能なパラメーターの数を大幅に削減します。
下流のタスク。
3 億 1,700 万個のトレーニング パラメーターを含む wav2vec2 モデルに対する Adam による微調整と比較して、LoRA はトレーニング可能なパラメーターの数を 198 分の 1 に減らすことで同様のパフォーマンスを達成しました。
要約(オリジナル)
Self-supervised speech models are a rapidly developing research topic in fake audio detection. Many pre-trained models can serve as feature extractors, learning richer and higher-level speech features. However,when fine-tuning pre-trained models, there is often a challenge of excessively long training times and high memory consumption, and complete fine-tuning is also very expensive. To alleviate this problem, we apply low-rank adaptation(LoRA) to the wav2vec2 model, freezing the pre-trained model weights and injecting a trainable rank-decomposition matrix into each layer of the transformer architecture, greatly reducing the number of trainable parameters for downstream tasks. Compared with fine-tuning with Adam on the wav2vec2 model containing 317M training parameters, LoRA achieved similar performance by reducing the number of trainable parameters by 198 times.
arxiv情報
著者 | Chenglong Wang,Jiangyan Yi,Xiaohui Zhang,Jianhua Tao,Le Xu,Ruibo Fu |
発行日 | 2023-06-09 01:43:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google