LASER: Learning by Aligning Self-supervised Representations of Speech for Improving Content-related Tasks

要約

自己教師あり学習 (SSL) ベースの音声モデルは、フルスタックの音声処理に広く使用されています。
ただし、コンテンツ関連のタスクでラベルのない音声を使用して SSL ベースの音声表現を改善することは困難であり、計算コストがかかることが観察されています。
最近、費用対効果の高い自己教師あり微調整 (SSFT) アプローチを使用して、この問題に対処する試みが行われています。
この方向に続けて、「LASER: Learning by Aligning Self-supervised Representations」という費用対効果の高い SSFT 手法が紹介されます。
LASER は、時間正則化項を使用したソフト DTW アライメント損失に基づいています。
実験は HuBERT モデルと WavLM モデルを使用して実施され、自動音声認識 (ASR) と音素認識 (PR) という 2 つのコンテンツ関連タスクについて SUPERB ベンチマークで評価されます。
単一 GPU でわずか 3 時間未満の微調整で、ASR タスクと PR タスクでそれぞれ、HuBERT で 3.7% と 8.2%、WavLM で 4.1% と 11.7% の相対的な改善が観察されました。

要約(オリジナル)

Self-supervised learning (SSL)-based speech models are extensively used for full-stack speech processing. However, it has been observed that improving SSL-based speech representations using unlabeled speech for content-related tasks is challenging and computationally expensive. Recent attempts have been made to address this issue with cost-effective self-supervised fine-tuning (SSFT) approaches. Continuing in this direction, a cost-effective SSFT method named ‘LASER: Learning by Aligning Self-supervised Representations’ is presented. LASER is based on the soft-DTW alignment loss with temporal regularisation term. Experiments are conducted with HuBERT and WavLM models and evaluated on the SUPERB benchmark for two content-related tasks: automatic speech recognition (ASR) and phoneme recognition (PR). A relative improvement of 3.7% and 8.2% for HuBERT, and 4.1% and 11.7% for WavLM are observed, for the ASR and PR tasks respectively, with only < 3 hours of fine-tuning on a single GPU.

arxiv情報

著者 Amit Meghanani,Thomas Hain
発行日 2024-06-13 14:17:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク