Improving the Intent Classification accuracy in Noisy Environment

要約

意図分類は、主にエンド ツー エンドのニューラル モデルでアプローチできる可能性があるため、最近科学界の注目を集めている音声言語理解分野の基本的なタスクです。
このようにして、中間ステップ、つまり自動音声認識の使用を回避することが可能であり、したがって、バックグラウンド ノイズ、自発的な発話、ユーザーの発話スタイルなどによるエラーの伝播が可能になります。実際のシナリオに適用可能なソリューションの開発に向けて、興味深いです。
エンドツーエンドのニューラルモデルを使用して、環境ノイズと関連するノイズ低減技術が意図分類タスクにどのように対処するかを調査します。
このホワイト ペーパーでは、流暢な音声コマンド データ セットのノイズの多いバージョンを使用して実験し、意図分類器を Wave-U-Net に基づく時間領域の音声強調ソリューションと組み合わせ、さまざまなトレーニング戦略を検討します。
実験結果は、このタスクの場合、特に分類モデルが強化された信号でトレーニングされている場合、音声強調を使用すると、ノイズの多い状況での分類精度が大幅に向上することを明らかにしています。

要約(オリジナル)

Intent classification is a fundamental task in the spoken language understanding field that has recently gained the attention of the scientific community, mainly because of the feasibility of approaching it with end-to-end neural models. In this way, avoiding using intermediate steps, i.e. automatic speech recognition, is possible, thus the propagation of errors due to background noise, spontaneous speech, speaking styles of users, etc. Towards the development of solutions applicable in real scenarios, it is interesting to investigate how environmental noise and related noise reduction techniques to address the intent classification task with end-to-end neural models. In this paper, we experiment with a noisy version of the fluent speech command data set, combining the intent classifier with a time-domain speech enhancement solution based on Wave-U-Net and considering different training strategies. Experimental results reveal that, for this task, the use of speech enhancement greatly improves the classification accuracy in noisy conditions, in particular when the classification model is trained on enhanced signals.

arxiv情報

著者 Mohamed Nabih Ali,Alessio Brutti,Daniele Falavigna
発行日 2023-03-12 06:11:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク