要約
本論文では、RNNトランスデューサモデル(RNN-T)に、自己条件付けされたCTC自動音声認識(ASR)目標を組み込むことで、エンドツーエンド(E2E)音声言語理解(SLU)を改善することを提案する。我々の提案するモデルは、ASRとSLUを順次実行するE2E微分可能なカスケードモデルのようなものであり、CTC自己条件付けを行うことで、SLUタスクがASRタスクに条件付けされることを保証する。このASRとSLUの新しい共同モデリングにより、SLU最適化だけを使用するよりもSLU性能が大幅に向上します。このモデルの音響埋め込みを、意味的に豊かなBERTモデルと整合させることで、さらに性能を向上させる。我々の提案する知識伝達戦略は、アライメントされた埋込みデータ上でBag-of-Entity予測層を利用し、その出力をRNN-TベースのSLUデコーディングの条件付けに利用する。これらの技術は、いくつかの強力なベースラインに対して大幅な改善を示し、大幅に少ないパラメータでWhisperのような大規模モデルと同等の性能を発揮することができる。
要約(オリジナル)
In this paper, we propose to improve end-to-end (E2E) spoken language understand (SLU) in an RNN transducer model (RNN-T) by incorporating a joint self-conditioned CTC automatic speech recognition (ASR) objective. Our proposed model is akin to an E2E differentiable cascaded model which performs ASR and SLU sequentially and we ensure that the SLU task is conditioned on the ASR task by having CTC self conditioning. This novel joint modeling of ASR and SLU improves SLU performance significantly over just using SLU optimization. We further improve the performance by aligning the acoustic embeddings of this model with the semantically richer BERT model. Our proposed knowledge transfer strategy makes use of a bag-of-entity prediction layer on the aligned embeddings and the output of this is used to condition the RNN-T based SLU decoding. These techniques show significant improvement over several strong baselines and can perform at par with large models like Whisper with significantly fewer parameters.
arxiv情報
著者 | Vishal Sunder,Eric Fosler-Lussier |
発行日 | 2025-01-03 18:19:12+00:00 |
arxivサイト | arxiv_id(pdf) |