要約
この論文では、マスクされた言語モデリング、自己蒸留、オンライン クラスタリングを組み合わせた自己教師あり音声表現学習 (DinoSR) のための自己蒸留とオンライン クラスタリングを紹介します。
これらの概念が相互に補完し合い、音声に対する強力な表現学習モデルが得られることを示します。
DinoSR は、まず教師ネットワークを使用して入力音声からコンテキスト化されたエンベディングを抽出し、次にそのエンベディング上でオンライン クラスタリング システムを実行して機械検出された電話インベントリを生成し、最後に離散化されたトークンを使用して生徒ネットワークをガイドします。
我々は、DinoSR がいくつかの下流タスクにおいて以前の最先端のパフォーマンスを上回っていることを示し、モデルと学習された離散ユニットの詳細な分析を提供します。
要約(オリジナル)
In this paper, we introduce self-distillation and online clustering for self-supervised speech representation learning (DinoSR) which combines masked language modeling, self-distillation, and online clustering. We show that these concepts complement each other and result in a strong representation learning model for speech. DinoSR first extracts contextualized embeddings from the input audio with a teacher network, then runs an online clustering system on the embeddings to yield a machine-discovered phone inventory, and finally uses the discretized tokens to guide a student network. We show that DinoSR surpasses previous state-of-the-art performance in several downstream tasks, and provide a detailed analysis of the model and the learned discrete units.
arxiv情報
著者 | Alexander H. Liu,Heng-Jui Chang,Michael Auli,Wei-Ning Hsu,James R. Glass |
発行日 | 2024-01-16 05:43:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google