Code-Switched Urdu ASR for Noisy Telephonic Environment using Data Centric Approach with Hybrid HMM and CNN-TDNN

要約

コールセンターには、ビジネス上の貴重な洞察を得るために使用できる膨大な量の音声データがあり、電話の文字起こしを手作業で行うのは面倒な作業です。
効果的な自動音声認識システムは、これらの通話を正確に書き起こすことができ、特定のコンテキストやコンテンツを通話履歴から簡単に検索できるため、通話の自動監視が可能になり、キーワード検索とセンチメント分析を通じて QoS が向上します。
電話環境は一般に騒音が多いため、コールセンター向けの ASR にはより堅牢性が必要です。
さらに、自動音声認識テクノロジーの助けを借りて保存できる、絶滅の危機に瀕しているリソースの少ない言語がたくさんあります。
ウルドゥー語は、世界で $10^{th}$ 最も広く話されている言語であり、ASR では依然としてリソースに制約のある言語であり、世界中で 2 億 3,129 万 5,444 語あります。
地域のコールセンターでの会話は現地の言語で行われ、英語の番号と専門用語が混在するため、一般的に「コードスイッチング」の問題が発生します。
したがって、この論文では、チェーンハイブリッドHMMとコード交換ウルドゥー語用のCNN-TDNNを使用した、騒がしいコールセンター環境におけるリソース効率の高い自動音声認識/音声テキスト変換システムの実装フレームワークについて説明します。
ハイブリッド HMM-DNN アプローチを使用すると、ラベルの少ないデータでニューラル ネットワークの利点を活用できるようになりました。
CNN と TDNN を追加すると、CNN の周波数次元が追加され、ノイズの多い音声から追加の情報が取得され、精度が向上するため、ノイズの多い環境でより適切に機能することが示されています。
私たちはさまざまなオープン ソースからデータを収集し、ウルドゥー語の一般的なコンテキストと内容、および他の言語 (主に英語) で一般的に使用される単語を分析した後、ラベルのないデータの一部にラベルを付けました。また、騒がしい環境でもクリーンな環境でも、孤立した単語や数字、および継続的な自発的な発話で 5.2% の WER を達成することができました。

要約(オリジナル)

Call Centers have huge amount of audio data which can be used for achieving valuable business insights and transcription of phone calls is manually tedious task. An effective Automated Speech Recognition system can accurately transcribe these calls for easy search through call history for specific context and content allowing automatic call monitoring, improving QoS through keyword search and sentiment analysis. ASR for Call Center requires more robustness as telephonic environment are generally noisy. Moreover, there are many low-resourced languages that are on verge of extinction which can be preserved with help of Automatic Speech Recognition Technology. Urdu is the $10^{th}$ most widely spoken language in the world, with 231,295,440 worldwide still remains a resource constrained language in ASR. Regional call-center conversations operate in local language, with a mix of English numbers and technical terms generally causing a ‘code-switching’ problem. Hence, this paper describes an implementation framework of a resource efficient Automatic Speech Recognition/ Speech to Text System in a noisy call-center environment using Chain Hybrid HMM and CNN-TDNN for Code-Switched Urdu Language. Using Hybrid HMM-DNN approach allowed us to utilize the advantages of Neural Network with less labelled data. Adding CNN with TDNN has shown to work better in noisy environment due to CNN’s additional frequency dimension which captures extra information from noisy speech, thus improving accuracy. We collected data from various open sources and labelled some of the unlabelled data after analysing its general context and content from Urdu language as well as from commonly used words from other languages, primarily English and were able to achieve WER of 5.2% with noisy as well as clean environment in isolated words or numbers as well as in continuous spontaneous speech.

arxiv情報

著者 Muhammad Danyal Khan,Raheem Ali,Arshad Aziz
発行日 2023-07-24 13:04:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク