Revisiting speech segmentation and lexicon learning with better features


明示的な語彙を学習せずにゼロリソースセグメンテーションを実行する、2 段階の期間ペナルティのある動的プログラミング手法から開始します。
最初の音響単位発見段階では、対照的予測符号化機能を HuBERT に置き換えます。
第 2 段階の単語分割後、HuBERT 特徴を平均することにより各セグメントの音響単語埋め込みを取得します。
これらの埋め込みは、K 平均法を使用してクラスタリングされ、語彙が取得されます。
その結果、ZeroSpeech ベンチマークで最先端のパフォーマンスを達成するレキシコンを備えた優れたフルカバレッジ セグメンテーションが得られます。


We revisit a self-supervised method that segments unlabelled speech into word-like segments. We start from the two-stage duration-penalised dynamic programming method that performs zero-resource segmentation without learning an explicit lexicon. In the first acoustic unit discovery stage, we replace contrastive predictive coding features with HuBERT. After word segmentation in the second stage, we get an acoustic word embedding for each segment by averaging HuBERT features. These embeddings are clustered using K-means to get a lexicon. The result is good full-coverage segmentation with a lexicon that achieves state-of-the-art performance on the ZeroSpeech benchmarks.


著者 Herman Kamper,Benjamin van Niekerk
発行日 2024-01-31 15:06:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク