R-Spin: Efficient Speaker and Noise-invariant Representation Learning with Acoustic Pieces

要約

この論文では、話者不変クラスタリング (Spin) を使用して離散音響単位を学習することにより、話者およびノイズ不変音声表現のためのデータ効率の高い自己教師あり微調整フレームワークである Robust Spin (R-Spin) を紹介します。
R-Spin は、音響部分の予測を学習することで Spin の問題を解決し、コンテンツ表現を強化します。
R-Spin は、これまでの最先端の方法と比較して計算リソースを 12 倍削減し、著しく歪んだ音声シナリオではそれを上回るパフォーマンスを発揮します。
この論文では、離散ユニットが音声エンコーダのトレーニングと多様な音響環境における堅牢性の向上にどのように貢献するかを示す詳細な分析を提供します。

要約(オリジナル)

This paper introduces Robust Spin (R-Spin), a data-efficient self-supervised fine-tuning framework for speaker and noise-invariant speech representations by learning discrete acoustic units with speaker-invariant clustering (Spin). R-Spin resolves Spin’s issues and enhances content representations by learning to predict acoustic pieces. R-Spin offers a 12X reduction in computational resources compared to previous state-of-the-art methods while outperforming them in severely distorted speech scenarios. This paper provides detailed analyses to show how discrete units contribute to speech encoder training and improving robustness in diverse acoustic environments.

arxiv情報

著者 Heng-Jui Chang,James Glass
発行日 2023-11-15 17:07:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク