mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra

要約

音声超解像度 (SSR) は、対応する低解像度 (LR) 音声から高解像度 (HR) 音声を復元することを目的としています。
最近の SSR 手法は、振幅スペクトログラムの再構成に重点を置き、位相再構成の重要性を無視しているため、復元の品質が制限されています。
この問題に対処するために、修正離散コサイン変換 (MDCT) に基づく新しい SSR フレームワークである mdctGAN を提案します。
MDCT ドメインでの敵対的学習により、私たちの方法はボコーダーや追加の後処理を行わずに、位相を意識した方法で HR 音声を再構成します。
さらに、mdctGAN は、自己注意メカニズムで周波数一貫性のある特徴を学習することにより、高品質の音声再構成を保証します。
VCTK コーパス データセットの場合、実験結果は、私たちのモデルが高い MOS スコアと PESQ スコアを備えた自然な聴覚品質を生成することを示しています。
また、さまざまな入力レートから 48 kHz のターゲット解像度で最先端の対数スペクトル距離 (LSD) パフォーマンスを実現します。
コードは https://github.com/neoncloud/mdctGAN から入手できます。

要約(オリジナル)

Speech super-resolution (SSR) aims to recover a high resolution (HR) speech from its corresponding low resolution (LR) counterpart. Recent SSR methods focus more on the reconstruction of the magnitude spectrogram, ignoring the importance of phase reconstruction, thereby limiting the recovery quality. To address this issue, we propose mdctGAN, a novel SSR framework based on modified discrete cosine transform (MDCT). By adversarial learning in the MDCT domain, our method reconstructs HR speeches in a phase-aware manner without vocoders or additional post-processing. Furthermore, by learning frequency consistent features with self-attentive mechanism, mdctGAN guarantees a high quality speech reconstruction. For VCTK corpus dataset, the experiment results show that our model produces natural auditory quality with high MOS and PESQ scores. It also achieves the state-of-the-art log-spectral-distance (LSD) performance on 48 kHz target resolution from various input rates. Code is available from https://github.com/neoncloud/mdctGAN

arxiv情報

著者 Chenhao Shuai,Chaohua Shi,Lu Gan,Hongqing Liu
発行日 2023-05-19 07:26:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.AS パーマリンク