Mixture of LoRA Experts for Low-Resourced Multi-Accent Automatic Speech Recognition

要約

私たちは、特に低リソースの多氷河設定で、非ネイティブの発話に対する自動音声認識(ASR)システムの堅牢性を改善することを目指しています。
アクセント固有のLORA(MAS-LORA)の混合物を紹介します。これは、それぞれが特定のアクセントに特化した低ランク適応(LORA)の専門家の混合物を活用する微調整方法です。
この方法は、モデルを再度微調整する必要なく、アクセントが推論時に既知または不明の場合に使用できます。
L2-ARCTICコーパスでささやきを使用して実施された実験は、通常のLORAと比較して、アクセントが不明な場合は完全な微調整と比較して、単語エラー率の大幅な改善を示しています。
アクセントがわかっている場合、結果はさらに改善されます。
さらに、Mas-Loraは、他の微調整方法よりも壊滅的な忘却が少ないことを示しています。
私たちの知る限り、これは非ネイティブの多氷河ASRのLORA専門家の混合物の最初の使用です。

要約(オリジナル)

We aim to improve the robustness of Automatic Speech Recognition (ASR) systems against non-native speech, particularly in low-resourced multi-accent settings. We introduce Mixture of Accent-Specific LoRAs (MAS-LoRA), a fine-tuning method that leverages a mixture of Low-Rank Adaptation (LoRA) experts, each specialized in a specific accent. This method can be used when the accent is known or unknown at inference time, without the need to fine-tune the model again. Our experiments, conducted using Whisper on the L2-ARCTIC corpus, demonstrate significant improvements in Word Error Rate compared to regular LoRA and full fine-tuning when the accent is unknown. When the accent is known, the results further improve. Furthermore, MAS-LoRA shows less catastrophic forgetting than the other fine-tuning methods. To the best of our knowledge, this is the first use of a mixture of LoRA experts for non-native multi-accent ASR.

arxiv情報

著者 Raphaël Bagat,Irina Illina,Emmanuel Vincent
発行日 2025-05-26 13:57:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク