Cocktail HuBERT: Generalized Self-Supervised Pre-training for Mixture and Single-Source Speech

要約

自己教師あり学習は、ラベル付けされていないデータを効果的に活用し、ラベル付けの効率と、ラベル付けされたデータのないドメインへの一般化を改善します。
最近の研究では、より多くの音響/言語ドメイン、言語、およびモダリティへの一般化が研究されていますが、これらの調査は、録音に主要な話者が 1 人いる単一ソースの音声に限定されています。
このホワイト ペーパーでは、マスクされた疑似音源分離目標を使用して混合音声に一般化する自己教師あり学習フレームワークである Cocktail HuBERT について説明します。
この目的は、モデルがソースの数を識別し、コンテキストを分離して理解し、発見されたユニットとして表されるマスクされた領域のコンテンツを推測することを奨励します。
Cocktail HuBERT は、マルチスピーカー ASR で 69% 低い WER、ダイアライゼーションで 31% 低い DER で最先端の結果を上回り、SUPERB のシングルおよびマルチスピーカー タスクで競争力があります。

要約(オリジナル)

Self-supervised learning leverages unlabeled data effectively, improving label efficiency and generalization to domains without labeled data. While recent work has studied generalization to more acoustic/linguistic domains, languages, and modalities, these investigations are limited to single-source speech with one primary speaker in the recording. This paper presents Cocktail HuBERT, a self-supervised learning framework that generalizes to mixture speech using a masked pseudo source separation objective. This objective encourages the model to identify the number of sources, separate and understand the context, and infer the content of masked regions represented as discovered units. Cocktail HuBERT outperforms state-of-the-art results with 69% lower WER on multi-speaker ASR, 31% lower DER on diarization, and is competitive on single- and multi-speaker tasks from SUPERB.

arxiv情報

著者 Maryam Fazel-Zarandi,Wei-Ning Hsu
発行日 2023-03-20 14:07:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク