要約
コネクショニストの時間分類(CTC)には、ラベルコンテキストの独立性の仮定がありますが、現代の強力なエンコーダーにより、コンテキスト依存の内部言語モデル(ILM)を暗黙的に学習することができます。
この作業では、CTCのILMでモデル化された暗黙のコンテキスト依存関係を調査します。
この目的のために、理論的正当性を備えた知識蒸留(KD)に基づいて、CTCの新しいコンテキスト依存性ILM推定方法を提案します。
さらに、KDに2つの正規化方法を紹介します。
それぞれ領土内およびドメイン内評価のために、それぞれLibrispeechおよびTed-Lium Release 2データセットで実験を行います。
実験結果は、コンテキスト依存のILMがクロスドメイン評価でコンテキストに依存しないプライアーを上回ることを示しており、CTCがコンテキスト依存ILMを学習することを示しています。
スムージング方法を備えた提案されたラベルレベルKDは、他のILM推定アプローチを超えており、浅い融合と比較してワードエラー率が13%以上改善されています。
要約(オリジナル)
Although connectionist temporal classification (CTC) has the label context independence assumption, it can still implicitly learn a context-dependent internal language model (ILM) due to modern powerful encoders. In this work, we investigate the implicit context dependency modeled in the ILM of CTC. To this end, we propose novel context-dependent ILM estimation methods for CTC based on knowledge distillation (KD) with theoretical justifications. Furthermore, we introduce two regularization methods for KD. We conduct experiments on Librispeech and TED-LIUM Release 2 datasets for in-domain and cross-domain evaluation, respectively. Experimental results show that context-dependent ILMs outperform the context-independent priors in cross-domain evaluation, indicating that CTC learns a context-dependent ILM. The proposed label-level KD with smoothing method surpasses other ILM estimation approaches, with more than 13% relative improvement in word error rate compared to shallow fusion.
arxiv情報
著者 | Zijian Yang,Minh-Nghia Phan,Ralf Schlüter,Hermann Ney |
発行日 | 2025-06-06 13:54:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google