SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT

要約

音声の自己教師あり学習 (SSL) におけるデータ駆動型の単位発見により、音声言語処理の新時代が始まりました。
しかし、発見された単位は音声空間に留まることが多く、音素を超えた単位はほとんど調査されていません。
ここでは、音声の文レベルの表現を学習する際に音節構成が現れることを示します。
特に、文全体を要約するアグリゲーター トークンを使用して事前トレーニングされた HuBERT を微調整する「自己蒸留」目標を採用します。
いかなる監視も行わない場合、結果として得られるモデルは音声に明確な境界を描き、フレーム全体の表現は顕著な音節構造を示します。
我々は、この創発的な構造がグラウンドトゥルースの音節にほぼ対応していることを実証します。
さらに、音声の文レベルの表現を評価するための新しいベンチマーク タスクである Spoken Speech ABX を提案します。
以前のモデルと比較すると、私たちのモデルは教師なし音節発見と文レベル表現の学習の両方で優れています。
私たちは一緒に、HuBERT の自己蒸留によって外部のラベルやモダリティに依存せずに音節構成が生じ、音声言語モデリングのための新しいデータ駆動型ユニットが提供される可能性があることを実証します。

要約(オリジナル)

Data-driven unit discovery in self-supervised learning (SSL) of speech has embarked on a new era of spoken language processing. Yet, the discovered units often remain in phonetic space and the units beyond phonemes are largely underexplored. Here, we demonstrate that a syllabic organization emerges in learning sentence-level representation of speech. In particular, we adopt ‘self-distillation’ objective to fine-tune the pretrained HuBERT with an aggregator token that summarizes the entire sentence. Without any supervision, the resulting model draws definite boundaries in speech, and the representations across frames exhibit salient syllabic structures. We demonstrate that this emergent structure largely corresponds to the ground truth syllables. Furthermore, we propose a new benchmark task, Spoken Speech ABX, for evaluating sentence-level representation of speech. When compared to previous models, our model outperforms in both unsupervised syllable discovery and learning sentence-level representation. Together, we demonstrate that the self-distillation of HuBERT gives rise to syllabic organization without relying on external labels or modalities, and potentially provides novel data-driven units for spoken language modeling.

arxiv情報

著者 Cheol Jun Cho,Abdelrahman Mohamed,Shang-Wen Li,Alan W Black,Gopala K. Anumanchipalli
発行日 2024-01-16 05:54:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク