Towards Rehearsal-Free Multilingual ASR: A LoRA-based Case Study on Whisper

要約

Whisper のような、事前トレーニングされた多言語音声基礎モデルは、さまざまな言語にわたって優れたパフォーマンスを示しています。
ただし、これらのモデルを新しい言語または特定の言語に適応させるには、計算量が膨大になり、壊滅的な忘却の問題に直面します。
これらの問題に対処するために、私たちの研究では、元のトレーニング データがない場合に、元の言語で確立されたパフォーマンスを維持しながら、新しい言語でモデルを強化する戦略を調査します。
具体的には、まず、さまざまな LoRA ベースの手法を比較して、忘却に対する脆弱性を確認します。
この問題を軽減するために、新しいサンプルで近似直交勾配降下法を行うために元のモデルの LoRA パラメーターを活用することを提案します。
さらに、より効率的なトレーニングのためにトレーニング可能なパラメータを割り当てるための学習可能なランク係数も導入します。
Chinese Whisper モデル (ウイグル人とチベット人用) を使った実験では、よりコンパクトなパラメーター セットでより良い結果が得られました。

要約(オリジナル)

Pre-trained multilingual speech foundation models, like Whisper, have shown impressive performance across different languages. However, adapting these models to new or specific languages is computationally extensive and faces catastrophic forgetting problems. Addressing these issues, our study investigates strategies to enhance the model on new languages in the absence of original training data, while also preserving the established performance on the original languages. Specifically, we first compare various LoRA-based methods to find out their vulnerability to forgetting. To mitigate this issue, we propose to leverage the LoRA parameters from the original model for approximate orthogonal gradient descent on the new samples. Additionally, we also introduce a learnable rank coefficient to allocate trainable parameters for more efficient training. Our experiments with a Chinese Whisper model (for Uyghur and Tibetan) yield better results with a more compact parameter set.

arxiv情報

著者 Tianyi Xu,Kaixun Huang,Pengcheng Guo,Yu Zhou,Longtao Huang,Hui Xue,Lei Xie
発行日 2024-08-20 09:31:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク