要約
音声対話システムでは、NLU モデルの前に音声認識システムが配置され、自然言語理解のパフォーマンスが低下する可能性があります。
この論文では、自然言語理解モデルのパフォーマンスに対する音声認識エラーの影響を調査する方法を提案します。
提案された方法は、逆転写手順と、NLU モデルのパフォーマンスに影響を与えるエラーを分類するためのきめ細かい技術を組み合わせたものです。
この方法は、NLU 評価のための合成音声の使用に依存しています。
音声録音の代わりに合成音声を使用しても、提示された技術の結果が大きく変わらないことを示します。
要約(オリジナル)
In a spoken dialogue system, an NLU model is preceded by a speech recognition system that can deteriorate the performance of natural language understanding. This paper proposes a method for investigating the impact of speech recognition errors on the performance of natural language understanding models. The proposed method combines the back transcription procedure with a fine-grained technique for categorizing the errors that affect the performance of NLU models. The method relies on the usage of synthesized speech for NLU evaluation. We show that the use of synthesized speech in place of audio recording does not change the outcomes of the presented technique in a significant way.
arxiv情報
著者 | Marek Kubis,Paweł Skórzewski,Marcin Sowański,Tomasz Ziętkiewicz |
発行日 | 2023-10-25 13:07:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google