Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection

要約

自己教師あり音声モデルは、偽音声検出において急速に発展している研究トピックです。
多くの事前トレーニング済みモデルは特徴抽出器として機能し、より豊富で高レベルの音声特徴を学習できます。
ただし、事前トレーニングされたモデルを微調整する場合、過度に長いトレーニング時間と大量のメモリ消費という課題がしばしば発生し、完全な微調整にも非常にコストがかかります。
この問題を軽減するために、wav2vec2 モデルに低ランク適応 (LoRA) を適用し、事前トレーニングされたモデルの重みを凍結し、トレーニング可能なランク分解行列をトランスフォーマー アーキテクチャの各層に注入して、トレーニング可能なパラメーターの数を大幅に削減します。
下流のタスク。
3 億 1,700 万個のトレーニング パラメーターを含む wav2vec2 モデルに対する Adam による微調整と比較して、LoRA はトレーニング可能なパラメーターの数を 198 分の 1 に減らすことで同様のパフォーマンスを達成しました。

要約(オリジナル)

Self-supervised speech models are a rapidly developing research topic in fake audio detection. Many pre-trained models can serve as feature extractors, learning richer and higher-level speech features. However,when fine-tuning pre-trained models, there is often a challenge of excessively long training times and high memory consumption, and complete fine-tuning is also very expensive. To alleviate this problem, we apply low-rank adaptation(LoRA) to the wav2vec2 model, freezing the pre-trained model weights and injecting a trainable rank-decomposition matrix into each layer of the transformer architecture, greatly reducing the number of trainable parameters for downstream tasks. Compared with fine-tuning with Adam on the wav2vec2 model containing 317M training parameters, LoRA achieved similar performance by reducing the number of trainable parameters by 198 times.

arxiv情報

著者 Chenglong Wang,Jiangyan Yi,Xiaohui Zhang,Jianhua Tao,Le Xu,Ruibo Fu
発行日 2023-06-09 01:43:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク