InterMPL: Momentum Pseudo-Labeling with Intermediate CTC Loss

要約

この論文では、InterMPL を紹介します。これは、中間教師による疑似ラベリング (PL) を実行する、エンドツーエンドの自動音声認識 (ASR) の半教師あり学習方法です。
Momentum PL (MPL) は、その場で擬似ラベルを継続的に生成し、その品質を向上させることにより、ラベルのないデータでコネクショニスト時間分類 (CTC) ベースのモデルをトレーニングします。
注意ベースのエンコーダー/デコーダーやトランスデューサーなどの自己回帰定式化とは対照的に、CTC は、シンプル/高速な推論アルゴリズムと、折りたたまれたラベルの生成に対する堅牢性により、MPL、または PL ベースの半教師付き ASR に一般的に適しています。
.
ただし、CTC は一般に、条件付きの独立性を仮定しているため、自己回帰モデルよりもパフォーマンスが低く、MPL のパフォーマンスが制限されます。
CTCベースのモデリングの最近の進歩に触発されて、中間損失を導入することによりMPLを強化することを提案します。
具体的には、条件付きの独立性の仮定が明示的に緩和されるように、補助的な CTC 損失を中間層に適用する、自己条件付きおよび階層的な条件付き CTC に焦点を当てます。
また、疑似ラベルを生成し、中間損失の監視として使用する方法についても説明します。
さまざまな半教師付き設定での実験結果は、提案されたアプローチが MPL よりも優れており、ASR モデルを最大 12.1% の絶対パフォーマンスの向上で改善することを示しています。
さらに、詳細な分析により、中間損失の重要性が検証されます。

要約(オリジナル)

This paper presents InterMPL, a semi-supervised learning method of end-to-end automatic speech recognition (ASR) that performs pseudo-labeling (PL) with intermediate supervision. Momentum PL (MPL) trains a connectionist temporal classification (CTC)-based model on unlabeled data by continuously generating pseudo-labels on the fly and improving their quality. In contrast to autoregressive formulations, such as the attention-based encoder-decoder and transducer, CTC is well suited for MPL, or PL-based semi-supervised ASR in general, owing to its simple/fast inference algorithm and robustness against generating collapsed labels. However, CTC generally yields inferior performance than the autoregressive models due to the conditional independence assumption, thereby limiting the performance of MPL. We propose to enhance MPL by introducing intermediate loss, inspired by the recent advances in CTC-based modeling. Specifically, we focus on self-conditional and hierarchical conditional CTC, that apply auxiliary CTC losses to intermediate layers such that the conditional independence assumption is explicitly relaxed. We also explore how pseudo-labels should be generated and used as supervision for intermediate losses. Experimental results in different semi-supervised settings demonstrate that the proposed approach outperforms MPL and improves an ASR model by up to a 12.1% absolute performance gain. In addition, our detailed analysis validates the importance of the intermediate loss.

arxiv情報

著者 Yosuke Higuchi,Tetsuji Ogawa,Tetsunori Kobayashi,Shinji Watanabe
発行日 2023-03-17 01:56:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク