Prompting and Adapter Tuning for Self-supervised Encoder-Decoder Speech Model

要約

プロンプトとアダプターのチューニングは、ファインチューニング (FT) 方法の効率的な代替手段として登場しました。
しかし、音声プロンプトに関する既存の研究は分類タスクに焦点を当てており、より複雑なシーケンス生成タスクには失敗していました。
さらに、アダプターのチューニングは主にエンコーダーのみの自己教師ありモデルに焦点を当てて適用されます。
私たちの実験は、自己教師ありエンコーダ/デコーダ モデルである Wav2Seq でのプロンプトが、シーケンス生成タスクにおいて以前の研究を上回ることを示しています。
ASR の単語エラー率では 53% という顕著な相対的改善が達成され、スロット充填では F1 スコアでは 27% という顕著な改善が達成されました。
さらに、プロンプトは、リソースが少ないシナリオでは FT メソッドと競合します。
さらに、言語を超えた ASR における Wav2Seq でのプロンプトとアダプターの調整の伝達可能性を示します。
トレーニング可能なパラメーターが限られている場合、プロンプトとアダプターの調整は、7 つの言語にわたって一貫して従来の FT を上回ります。
特に、リソースが少ないシナリオでは、プロンプトのパフォーマンスがアダプターのチューニングよりも一貫して優れています。

要約(オリジナル)

Prompting and adapter tuning have emerged as efficient alternatives to fine-tuning (FT) methods. However, existing studies on speech prompting focused on classification tasks and failed on more complex sequence generation tasks. Besides, adapter tuning is primarily applied with a focus on encoder-only self-supervised models. Our experiments show that prompting on Wav2Seq, a self-supervised encoder-decoder model, surpasses previous works in sequence generation tasks. It achieves a remarkable 53% relative improvement in word error rate for ASR and a 27% in F1 score for slot filling. Additionally, prompting competes with the FT method in the low-resource scenario. Moreover, we show the transferability of prompting and adapter tuning on Wav2Seq in cross-lingual ASR. When limited trainable parameters are involved, prompting and adapter tuning consistently outperform conventional FT across 7 languages. Notably, in the low-resource scenario, prompting consistently outperforms adapter tuning.

arxiv情報

著者 Kai-Wei Chang,Ming-Hsin Chen,Yun-Ping Lin,Jing Neng Hsu,Paul Kuo-Ming Huang,Chien-yu Huang,Shang-Wen Li,Hung-yi Lee
発行日 2023-10-04 17:07:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS, eess.SP パーマリンク