Enhancing and Adversarial: Improve ASR with Speaker Labels

要約

ASR は、ドメイン強化またはドメイン敵対トレーニングを使用したマルチタスク学習 (MTL) によって改善できます。これらは、ドメイン認識/非依存 ASR に向けてドメイン分散をそれぞれ増加/減少させることを目的とした 2 つの相反する目的です。
この作業では、コンフォマーベースの ASR を改善するために、これら 2 つの相反する目的を話者ラベルに最もよく適用する方法を研究します。
また、調整の手間をかけずに安定した効果的な敵対的トレーニングを行うための新しい適応勾配反転層も提案します。
詳細な分析と実験的検証を行って、ASR ニューラル ネットワーク (NN) 内の最適な位置を示し、話者の強化と敵対的トレーニングを適用します。
また、さらに改善するためにそれらの組み合わせを調査し、i-vectors と敵対的トレーニングと同じパフォーマンスを達成します。
私たちの最高のスピーカーベースの MTL は、Switchboard Hub5’00 セットで 7\% の相対的な改善を達成しています。
また、このようなスピーカーベースの MTL w.r.t の効果も調査します。
よりクリーンなデータセットとより弱い ASR NN。

要約(オリジナル)

ASR can be improved by multi-task learning (MTL) with domain enhancing or domain adversarial training, which are two opposite objectives with the aim to increase/decrease domain variance towards domain-aware/agnostic ASR, respectively. In this work, we study how to best apply these two opposite objectives with speaker labels to improve conformer-based ASR. We also propose a novel adaptive gradient reversal layer for stable and effective adversarial training without tuning effort. Detailed analysis and experimental verification are conducted to show the optimal positions in the ASR neural network (NN) to apply speaker enhancing and adversarial training. We also explore their combination for further improvement, achieving the same performance as i-vectors plus adversarial training. Our best speaker-based MTL achieves 7\% relative improvement on the Switchboard Hub5’00 set. We also investigate the effect of such speaker-based MTL w.r.t. cleaner dataset and weaker ASR NN.

arxiv情報

著者 Wei Zhou,Haotian Wu,Jingjing Xu,Mohammad Zeineldeen,Christoph Lüscher,Ralf Schlüter,Hermann Ney
発行日 2023-02-24 09:21:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク