AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement

要約

音声強調システムは通常、きれいな音声とノイズのある音声のペアを使用してトレーニングされます。
AVSE (Audio-Visual Speech Enhancement) では、利用可能なグラウンドトゥルースのクリーンなデータはそれほど多くありません。
ほとんどの視聴覚データセットは、背景雑音や残響のある現実世界の環境で収集されており、AVSE の開発を妨げています。
この研究では、現実世界のトレーニング データの課題にもかかわらず、きれいな音声を生成できる再合成ベースのオーディオビジュアル音声強化アプローチである AV2Wav を紹介します。
神経品質推定器を使用して視聴覚コーパスからほぼきれいな音声のサブセットを取得し、このサブセットで拡散モデルをトレーニングして、ノイズに強いトレーニングを備えた AV-HuBERT からの連続音声表現に条件付けされた波形を生成します。
韻律と話者の情報を保持するために、離散的表現ではなく連続的表現を使用します。
このボコーディング タスクだけを使用すると、モデルはマスキング ベースのベースラインよりも優れた音声強調を実行できます。
パフォーマンスを向上させるために、クリーンな発話とノイズのある発話のペアに関する拡散モデルをさらに微調整します。
私たちのアプローチは、自動測定基準と人間のリスニングテストの両方の点でマスキングベースのベースラインよりも優れており、リスニングテストのターゲット音声に近い品質です。
音声サンプルは https://home.ttic.edu/~jcchou/demo/avse/avse_demo.html でご覧いただけます。

要約(オリジナル)

Speech enhancement systems are typically trained using pairs of clean and noisy speech. In audio-visual speech enhancement (AVSE), there is not as much ground-truth clean data available; most audio-visual datasets are collected in real-world environments with background noise and reverberation, hampering the development of AVSE. In this work, we introduce AV2Wav, a resynthesis-based audio-visual speech enhancement approach that can generate clean speech despite the challenges of real-world training data. We obtain a subset of nearly clean speech from an audio-visual corpus using a neural quality estimator, and then train a diffusion model on this subset to generate waveforms conditioned on continuous speech representations from AV-HuBERT with noise-robust training. We use continuous rather than discrete representations to retain prosody and speaker information. With this vocoding task alone, the model can perform speech enhancement better than a masking-based baseline. We further fine-tune the diffusion model on clean/noisy utterance pairs to improve the performance. Our approach outperforms a masking-based baseline in terms of both automatic metrics and a human listening test and is close in quality to the target speech in the listening test. Audio samples can be found at https://home.ttic.edu/~jcchou/demo/avse/avse_demo.html.

arxiv情報

著者 Ju-Chieh Chou,Chung-Ming Chien,Karen Livescu
発行日 2023-10-24 15:43:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク