Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering

要約

自己教師あり音声表現モデルはさまざまなタスクで成功していますが、ラベルなしのデータを使用してコンテンツ関連の問題に対してモデルを改善するのは困難です。
我々は、音声表現をクラスタリングし、元の発話と話者によって摂動された発話の間で交換予測を実行する新しい自己教師あり学習方法である話者不変クラスタリング (Spin) を提案します。
Spin は、単一の GPU でわずか 45 分間の微調整でスピーカーの情報を解きほぐし、コンテンツ表現を保存します。
Spin は事前トレーニングされたネットワークを改善し、音声認識と音響単位の発見において従来の方法を上回ります。

要約(オリジナル)

Self-supervised speech representation models have succeeded in various tasks, but improving them for content-related problems using unlabeled data is challenging. We propose speaker-invariant clustering (Spin), a novel self-supervised learning method that clusters speech representations and performs swapped prediction between the original and speaker-perturbed utterances. Spin disentangles speaker information and preserves content representations with just 45 minutes of fine-tuning on a single GPU. Spin improves pre-trained networks and outperforms prior methods in speech recognition and acoustic unit discovery.

arxiv情報

著者 Heng-Jui Chang,Alexander H. Liu,James Glass
発行日 2023-05-18 15:59:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク