Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition

要約

自動音声認識(ASR)システムの単語エラー率は一貫して低下しているが、ASRシステムの上に構築された自然言語理解(NLU)アプリケーションは、依然としてかなりの数の失敗が低品質の音声認識結果に起因している。既存のアシスタントシステムは、このような失敗した対話を大量に収集しているが、これらのシステムは通常、オフラインの方法であっても、これらの対話から学習することができない。この研究では、CLCを紹介する:これは、アシスタントとの会話に失敗した際に容易に検出可能なアーチファクトを利用し、自己教師付きでモデルのコントラスト微調整を行う手法のファミリーである。我々は、タスク指向の音声対話の新しい公開大規模半合成メタデータセットであるOD3において、我々のCLCアプローチファミリーがASRモデルの性能を最大19.2%改善できることを実証する。CLCはベースラインと比較して最大6.7%の性能向上に役立つことが示されている。OD3 は https://github.com/amazon-science/amazon-od3 で公開されている。

要約(オリジナル)

While word error rates of automatic speech recognition (ASR) systems have consistently fallen, natural language understanding (NLU) applications built on top of ASR systems still attribute significant numbers of failures to low-quality speech recognition results. Existing assistant systems collect large numbers of these unsuccessful interactions, but these systems usually fail to learn from these interactions, even in an offline fashion. In this work, we introduce CLC: Contrastive Learning for Conversations, a family of methods for contrastive fine-tuning of models in a self-supervised fashion, making use of easily detectable artifacts in unsuccessful conversations with assistants. We demonstrate that our CLC family of approaches can improve the performance of ASR models on OD3, a new public large-scale semi-synthetic meta-dataset of audio task-oriented dialogues, by up to 19.2%. These gains transfer to real-world systems as well, where we show that CLC can help to improve performance by up to 6.7% over baselines. We make OD3 publicly available at https://github.com/amazon-science/amazon-od3 .

arxiv情報

著者 David M. Chan,Shalini Ghosh,Hitesh Tulsiani,Ariya Rastrow,Björn Hoffmeister
発行日 2024-01-04 18:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク