Learning Speech Representation From Contrastive Token-Acoustic Pretraining

要約

最小教師あり音声合成 (TTS)、音声変換 (VC)、自動音声認識 (ASR) などのきめ細かい生成および認識タスクの場合、音声から抽出された中間表現は、音声認識間の「ブリッジ」として機能する必要があります。
テキスト情報と音響情報。両方のモダリティからの情報が含まれます。
意味論的な内容は強調されますが、話者の身元や音響の詳細などのパラ言語情報は強調されないようにする必要があります。
しかし、音声からきめの細かい中間表現を抽出する既存の方法には、過剰な冗長性と次元の爆発という問題があります。
対照学習は、2 つのモダリティからの中間表現をモデル化するための優れた方法です。
ただし、オーディオ分野の既存の対照学習方法は、下流のオーディオ分類タスクのための全体的な記述情報を抽出することに重点を置いているため、TTS、VC、および ASR タスクには適していません。
これらの問題に対処するために、我々は「Contrastive Token-Acoustic Pretraining (CTAP)」という手法を提案します。この手法は、2 つのエンコーダを使用して音素と音声を共同マルチモーダル空間に取り込み、フレーム レベルで音素と音声を接続する方法を学習します。
CTAP モデルは 210,000 の音声と音素のペアでトレーニングされ、最小限の教師付き TTS、VC、および ASR を実現します。
提案された CTAP 方法は、音声処理におけるきめの細かい生成および認識の下流タスクに有望なソリューションを提供します。
音声サンプルを提供する Web サイトを提供します。

要約(オリジナル)

For fine-grained generation and recognition tasks such as minimally-supervised text-to-speech (TTS), voice conversion (VC), and automatic speech recognition (ASR), the intermediate representations extracted from speech should serve as a ‘bridge’ between text and acoustic information, containing information from both modalities. The semantic content is emphasized, while the paralinguistic information such as speaker identity and acoustic details should be de-emphasized. However, existing methods for extracting fine-grained intermediate representations from speech suffer from issues of excessive redundancy and dimension explosion. Contrastive learning is a good method for modeling intermediate representations from two modalities. However, existing contrastive learning methods in the audio field focus on extracting global descriptive information for downstream audio classification tasks, making them unsuitable for TTS, VC, and ASR tasks. To address these issues, we propose a method named ‘Contrastive Token-Acoustic Pretraining (CTAP)’, which uses two encoders to bring phoneme and speech into a joint multimodal space, learning how to connect phoneme and speech at the frame level. The CTAP model is trained on 210k speech and phoneme pairs, achieving minimally-supervised TTS, VC, and ASR. The proposed CTAP method offers a promising solution for fine-grained generation and recognition downstream tasks in speech processing. We provide a website with audio samples.

arxiv情報

著者 Chunyu Qiang,Hao Li,Yixin Tian,Ruibo Fu,Tao Wang,Longbiao Wang,Jianwu Dang
発行日 2023-09-27 08:41:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク