Gradient Remedy for Multi-Task Learning in End-to-End Noise-Robust Speech Recognition

要約

スピーチエンハンスメント (SE) は、ダウンストリームの自動音声認識 (ASR) のノイズの多い音声信号からノイズを低減するのに効果的であることが証明されており、マルチタスク学習戦略を使用してこれら 2 つのタスクを共同で最適化します。
ただし、SE 目標によって学習された強化された音声は、常に良い ASR 結果をもたらすとは限りません。

この論文では、角度と大きさの両方の観点から、ノイズに強い音声認識におけるタスク勾配間の干渉を解決するために、勾配救済 (GR) と呼ばれるシンプルで効果的なアプローチを提案します。
具体的には、最初に SE タスクの勾配を ASR 勾配に対して鋭角にある動的サーフェスに投影して、それらの間の競合を取り除き、ASR 最適化を支援します。
さらに、優勢な ASR タスクが SE 勾配によって誤解されるのを防ぐために、2 つの勾配の大きさを適応的に再スケーリングします。
実験結果は、提案されたアプローチが勾配干渉を適切に解決し、RATS および CHiME-4 データセットで、マルチタスク学習ベースラインに対してそれぞれ 9.3% および 11.1% の相対語誤り率 (WER) の削減を達成することを示しています。
私たちのコードは GitHub で入手できます。

要約(オリジナル)

Speech enhancement (SE) is proved effective in reducing noise from noisy speech signals for downstream automatic speech recognition (ASR), where multi-task learning strategy is employed to jointly optimize these two tasks. However, the enhanced speech learned by SE objective may not always yield good ASR results. From the optimization view, there sometimes exists interference between the gradients of SE and ASR tasks, which could hinder the multi-task learning and finally lead to sub-optimal ASR performance. In this paper, we propose a simple yet effective approach called gradient remedy (GR) to solve interference between task gradients in noise-robust speech recognition, from perspectives of both angle and magnitude. Specifically, we first project the SE task’s gradient onto a dynamic surface that is at acute angle to ASR gradient, in order to remove the conflict between them and assist in ASR optimization. Furthermore, we adaptively rescale the magnitude of two gradients to prevent the dominant ASR task from being misled by SE gradient. Experimental results show that the proposed approach well resolves the gradient interference and achieves relative word error rate (WER) reductions of 9.3% and 11.1% over multi-task learning baseline, on RATS and CHiME-4 datasets, respectively. Our code is available at GitHub.

arxiv情報

著者 Yuchen Hu,Chen Chen,Ruizhe Li,Qiushi Zhu,Eng Siong Chng
発行日 2023-02-22 13:31:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク