要約
音声感情認識 (SER) における永続的な課題の 1 つは、遍在する環境ノイズであり、実際の使用では SER のパフォーマンスが低下することがよくあります。
このペーパーでは、この課題に対処するために、TRNet と呼ばれる 2 レベルのリファインメント ネットワークを紹介します。
具体的には、事前トレーニングされた音声強調モジュールがフロントエンドのノイズ低減とノイズレベル推定に使用されます。
その後、クリーンな音声スペクトログラムとそれに対応する深い表現を参照信号として利用して、モデルのトレーニング中に強化された音声のスペクトログラムの歪みと表現シフトを調整します。
実験結果は、提案された TRNet が、クリーンな環境でのパフォーマンスを損なうことなく、ノイズの多い環境と一致する環境と一致しない環境の両方でシステムの堅牢性を大幅に向上させることを検証しました。
要約(オリジナル)
One persistent challenge in Speech Emotion Recognition (SER) is the ubiquitous environmental noise, which frequently results in diminished SER performance in practical use. In this paper, we introduce a Two-level Refinement Network, dubbed TRNet, to address this challenge. Specifically, a pre-trained speech enhancement module is employed for front-end noise reduction and noise level estimation. Later, we utilize clean speech spectrograms and their corresponding deep representations as reference signals to refine the spectrogram distortion and representation shift of enhanced speech during model training. Experimental results validate that the proposed TRNet substantially increases the system’s robustness in both matched and unmatched noisy environments, without compromising its performance in clean environments.
arxiv情報
著者 | Chengxin Chen,Pengyuan Zhang |
発行日 | 2024-04-19 16:09:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google