Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting

要約

ほとんどの音声自己教師あり学習 (SSL) モデルは、入力信号の欠落部分 (将来のセグメント (因果的予測) または入力内の任意の場所でマスクされたセグメント (非因果的予測) のいずれか) を予測するプレテキスト タスクを使用してトレーニングされます。
学習された音声表現は、下流のタスク (自動音声または話者認識など) に効率的に転送できます。
本研究では、音声修復のための音声 SSL モデルの使用を調査します。これは、周囲のコンテキストから音声信号の欠落部分を再構築する、つまり、口実タスクに非常によく似た下流タスクを実行します。
そのために、SSL エンコーダ (HuBERT) とデコーダの役割を果たすニューラル ボコーダ (HiFiGAN) を組み合わせます。
特に、HuBERT 出力を HiFiGAN 入力と一致させるための 2 つのソリューションを提案します。一方をフリーズして他方を微調整する、あるいはその逆を行います。
両方のアプローチのパフォーマンスは、インフォームド修復構成とブラインド修復構成 (つまり、マスクの位置がそれぞれ既知または未知) の両方について、シングル スピーカー設定とマルチ スピーカー設定で、異なる客観的指標と知覚的評価を使用して評価されました。
パフォーマンスは、両方のソリューションが最大 200 ミリ秒 (場合によっては 400 ミリ秒) のサイズまで信号部分を正しく再構築できる場合、SSL エンコーダーを微調整することで、シングル スピーカー設定の場合に信号をフリーズしながらより正確な信号を再構築できることを示しています。
(そして代わりにニューラルボコーダーをトレーニングする) ことは、マルチスピーカーデータを扱う場合により良い戦略です。

要約(オリジナル)

Most speech self-supervised learning (SSL) models are trained with a pretext task which consists in predicting missing parts of the input signal, either future segments (causal prediction) or segments masked anywhere within the input (non-causal prediction). Learned speech representations can then be efficiently transferred to downstream tasks (e.g., automatic speech or speaker recognition). In the present study, we investigate the use of a speech SSL model for speech inpainting, that is reconstructing a missing portion of a speech signal from its surrounding context, i.e., fulfilling a downstream task that is very similar to the pretext task. To that purpose, we combine an SSL encoder, namely HuBERT, with a neural vocoder, namely HiFiGAN, playing the role of a decoder. In particular, we propose two solutions to match the HuBERT output with the HiFiGAN input, by freezing one and fine-tuning the other, and vice versa. Performance of both approaches was assessed in single- and multi-speaker settings, for both informed and blind inpainting configurations (i.e., the position of the mask is known or unknown, respectively), with different objective metrics and a perceptual evaluation. Performances show that if both solutions allow to correctly reconstruct signal portions up to the size of 200ms (and even 400ms in some cases), fine-tuning the SSL encoder provides a more accurate signal reconstruction in the single-speaker setting case, while freezing it (and training the neural vocoder instead) is a better strategy when dealing with multi-speaker data.

arxiv情報

著者 Ihab Asaad,Maxime Jacquelin,Olivier Perrotin,Laurent Girin,Thomas Hueber
発行日 2024-05-30 14:41:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク