要約
音声基礎モデルの自己教師あり学習 (SSL) の優れた一般化能力が大きな注目を集めています。
HuBERT は、オフライン クラスタリングを利用して、マスクされた言語モデリング口実タスク用に音声特徴を個別の単位に変換する成功例です。
ただし、K 平均法によってターゲットとして特徴をクラスタリングするだけでは、モデルのパフォーマンスを十分に引き出すことはできません。
この研究では、SSL ターゲットを改善するための教師なし手法を紹介します。
MonoBERT と PolyBERT という 2 つのモデルが提案されており、事前トレーニングにコンテキスト独立およびコンテキスト依存の音素ベースのユニットを活用します。
当社のモデルは、反復的な再クラスタリングや再トレーニングを必要とせずに、LibriSpeech ベンチマークで他の SSL モデルよりも大幅に優れたパフォーマンスを示します。
さらに、コンテキスト依存ユニットを備えたモデルは、事前トレーニング中にラベル付きデータを使用する目標改善モデルよりも優れたパフォーマンスを発揮します。
ユニット発見プロセスを段階的に改善する方法を実験を通じて示します。
要約(オリジナル)
The excellent generalization ability of self-supervised learning (SSL) for speech foundation models has garnered significant attention. HuBERT is a successful example that utilizes offline clustering to convert speech features into discrete units for a masked language modeling pretext task. However, simply clustering features as targets by k-means does not fully inspire the model’s performance. In this work, we present an unsupervised method to improve SSL targets. Two models are proposed, MonoBERT and PolyBERT, which leverage context-independent and context-dependent phoneme-based units for pre-training. Our models outperform other SSL models significantly on the LibriSpeech benchmark without the need for iterative re-clustering and re-training. Furthermore, our models equipped with context-dependent units even outperform target-improvement models that use labeled data during pre-training. How we progressively improve the unit discovery process is demonstrated through experiments.
arxiv情報
著者 | Ziyang Ma,Zhisheng Zheng,Guanrou Yang,Yu Wang,Chao Zhang,Xie Chen |
発行日 | 2023-06-15 07:45:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google