要約
事前トレーニング済み音声認識 (ASR) と言語モデル (LM) を SLU フレームワークに統合することへの関心が高まっています。
ただし、従来の方法では、事前トレーニングされたモデル間の語彙の不一致に悩まされることが多く、LM は NLU 定式化から逸脱しているため、直接利用することはできません。
この研究では、ASR サブネットワークと LM サブネットワークをシーケンス生成タスクの SLU 定式化に効果的に統合する 3 パス エンドツーエンド (E2E) SLU システムを提案します。
最初のパスでは、アーキテクチャは ASR サブネットワークを使用して ASR トランスクリプトを予測します。
これに続いて LM サブネットワークが初期 SLU 予測を行います。
最後に、3 番目のパスでは、審議サブネットワークが ASR および LM サブネットワークからの表現に条件を付けて、最終予測を行います。
私たちが提案する 3 パス SLU システムは、2 つのベンチマーク SLU データセット、SLURP と SLUE において、特に音響的に困難な発話において、カスケード SLU モデルおよび E2E SLU モデルよりもパフォーマンスが向上しています。
要約(オリジナル)
There has been an increased interest in the integration of pretrained speech recognition (ASR) and language models (LM) into the SLU framework. However, prior methods often struggle with a vocabulary mismatch between pretrained models, and LM cannot be directly utilized as they diverge from its NLU formulation. In this study, we propose a three-pass end-to-end (E2E) SLU system that effectively integrates ASR and LM subnetworks into the SLU formulation for sequence generation tasks. In the first pass, our architecture predicts ASR transcripts using the ASR subnetwork. This is followed by the LM subnetwork, which makes an initial SLU prediction. Finally, in the third pass, the deliberation subnetwork conditions on representations from the ASR and LM subnetworks to make the final prediction. Our proposed three-pass SLU system shows improved performance over cascaded and E2E SLU models on two benchmark SLU datasets, SLURP and SLUE, especially on acoustically challenging utterances.
arxiv情報
| 著者 | Siddhant Arora,Hayato Futami,Yosuke Kashiwagi,Emiru Tsunoo,Brian Yan,Shinji Watanabe | 
| 発行日 | 2023-07-20 16:34:40+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
