要約
音声品質の推定は最近、人間の聴覚の専門家による設計から機械学習モデルへのパラダイム シフトを経験しています。
ただし、現在のモデルは主に教師あり学習に依存しているため、ラベル収集に時間とコストがかかります。
この問題を解決するために、ベクトル量子化変動自動エンコーダ (VQ-VAE) の量子化誤差に基づいて音声を評価するための自己教師あり指標である VQScore を提案します。
VQ-VAE のトレーニングは、きれいなスピーチに依存しています。
したがって、音声が歪んでいると、大きな量子化エラーが発生することが予想されます。
実際の品質スコアとの相関をさらに向上させるために、音声処理のドメイン知識がモデル設計に組み込まれています。
私たちは、ベクトル量子化メカニズムが自己教師あり音声強調 (SE) モデルのトレーニングにも使用できることを発見しました。
SE のエンコーダーの堅牢性を向上させるために、敵対的トレーニングと組み合わせた新しい自己蒸留メカニズムが導入されています。
要約すると、提案された音声品質推定方法と強化モデルは、ラベル要件なしでトレーニングにクリーンな音声のみを必要とします。
実験結果は、提案された VQScore および拡張モデルが教師付きベースラインと競合することを示しています。
コードは公開後に公開されます。
要約(オリジナル)
Speech quality estimation has recently undergone a paradigm shift from human-hearing expert designs to machine-learning models. However, current models rely mainly on supervised learning, which is time-consuming and expensive for label collection. To solve this problem, we propose VQScore, a self-supervised metric for evaluating speech based on the quantization error of a vector-quantized-variational autoencoder (VQ-VAE). The training of VQ-VAE relies on clean speech; hence, large quantization errors can be expected when the speech is distorted. To further improve correlation with real quality scores, domain knowledge of speech processing is incorporated into the model design. We found that the vector quantization mechanism could also be used for self-supervised speech enhancement (SE) model training. To improve the robustness of the encoder for SE, a novel self-distillation mechanism combined with adversarial training is introduced. In summary, the proposed speech quality estimation method and enhancement models require only clean speech for training without any label requirements. Experimental results show that the proposed VQScore and enhancement model are competitive with supervised baselines. The code will be released after publication.
arxiv情報
著者 | Szu-Wei Fu,Kuo-Hsuan Hung,Yu Tsao,Yu-Chiang Frank Wang |
発行日 | 2024-02-26 06:01:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google