要約
近年、音声強調モデルは大幅に進歩しましたが、音声出力の知覚品質にはまだ限界があります。
時間音響パラメータに基づく知覚品質の目標を提案します。
これらは、話者認識やパラ言語分析など、さまざまなアプリケーションで重要な役割を果たす基本的な音声機能です。
周波数関連パラメーター、エネルギーまたは振幅関連パラメーター、スペクトル バランス パラメーター、および時間的特徴を含む、低レベルの音響記述子の 4 つのカテゴリの微分可能な推定量を提供します。
集約された音響パラメーターまたは音響パラメーターのいくつかのカテゴリを調べる以前の研究とは異なり、一時的な音響パラメーター (TAP) の損失により、強化ワークフローにおける多くのきめ細かい音声特性の補助的な最適化と改善が可能になります。
TAPLoss を音声強調の補助目的として追加すると、知覚品質と明瞭度が向上した音声が生成されることを示します。
ディープ ノイズ サプレッション 2020 チャレンジのデータを使用して、時間領域モデルと時間-周波数領域モデルの両方が私たちの方法から利益を得ることができることを実証します。
要約(オリジナル)
Speech enhancement models have greatly progressed in recent years, but still show limits in perceptual quality of their speech outputs. We propose an objective for perceptual quality based on temporal acoustic parameters. These are fundamental speech features that play an essential role in various applications, including speaker recognition and paralinguistic analysis. We provide a differentiable estimator for four categories of low-level acoustic descriptors involving: frequency-related parameters, energy or amplitude-related parameters, spectral balance parameters, and temporal features. Unlike prior work that looks at aggregated acoustic parameters or a few categories of acoustic parameters, our temporal acoustic parameter (TAP) loss enables auxiliary optimization and improvement of many fine-grain speech characteristics in enhancement workflows. We show that adding TAPLoss as an auxiliary objective in speech enhancement produces speech with improved perceptual quality and intelligibility. We use data from the Deep Noise Suppression 2020 Challenge to demonstrate that both time-domain models and time-frequency domain models can benefit from our method.
arxiv情報
著者 | Yunyang Zeng,Joseph Konan,Shuo Han,David Bick,Muqiao Yang,Anurag Kumar,Shinji Watanabe,Bhiksha Raj |
発行日 | 2023-02-16 04:57:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google