要約
私たちは、音声認識 (ASR) で事前トレーニングされたエンコーダを使用してエンドツーエンド (E2E) Conformer-Transformer モデルを初期化することを提案することで、音声意図分類とスロット充填 (SICSF) を研究します。
SLURP データセットのアート結果は、意図精度 90.14%、SLURP-F1 82.27% でした。
私たちのモデルを自己教師あり学習 (SSL) で事前トレーニングされたエンコーダーと比較し、SICSF では ASR 事前トレーニングが SSL よりもはるかに効果的であることを示します。
パラメーターの効率を調査するために、エンコーダーをフリーズしてアダプター モジュールを追加し、パラメーターの効率が ASR で事前トレーニングされたエンコーダーでのみ達成可能であるのに対し、SSL エンコーダーが同等の結果を達成するには完全な微調整が必要であることを示します。
さらに、エンドツーエンド モデルとカスケード モデル (ASR+NLU) の詳細な比較を提供し、Oracle ASR モデルが提供されない限り、E2E モデルがカスケード モデルよりも優れていることを示します。
最後に重要なことですが、私たちのモデルは、Oracle ASR を使用したカスケード モデルと同じパフォーマンスを達成する最初の E2E モデルです。
コード、チェックポイント、構成が利用可能です。
要約(オリジナル)
We study speech intent classification and slot filling (SICSF) by proposing to use an encoder pretrained on speech recognition (ASR) to initialize an end-to-end (E2E) Conformer-Transformer model, which achieves the new state-of-the-art results on the SLURP dataset, with 90.14% intent accuracy and 82.27% SLURP-F1. We compare our model with encoders pretrained on self-supervised learning (SSL), and show that ASR pretraining is much more effective than SSL for SICSF. To explore parameter efficiency, we freeze the encoder and add Adapter modules, and show that parameter efficiency is only achievable with an ASR-pretrained encoder, while the SSL encoder needs full finetuning to achieve comparable results. In addition, we provide an in-depth comparison on end-to-end models versus cascading models (ASR+NLU), and show that E2E models are better than cascaded models unless an oracle ASR model is provided. Last but not least, our model is the first E2E model that achieves the same performance as cascading models with oracle ASR. Code, checkpoints and configs are available.
arxiv情報
著者 | He Huang,Jagadeesh Balam,Boris Ginsburg |
発行日 | 2023-07-13 20:50:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google