Is Attention always needed? A Case Study on Language Identification from Speech

要約

言語識別 (LID) は、自動音声認識 (ASR) の分野における重要な予備プロセスであり、音声サンプルから話し言葉を識別することが含まれます。
複数の言語で音声を処理できる現代のシステムでは、ユーザーは使用前に 1 つ以上の言語を明示的に指定する必要があります。
LID タスクは、ASR システムが多言語設定で話し言葉を理解できず、音声認識の結果が失敗するシナリオで重要な役割を果たします。
本研究では、オーディオ サンプルのメル周波数ケプストラム係数 (MFCC) 特性に基づいて動作するように設計された畳み込みリカレント ニューラル ネットワーク (CRNN) ベースの LID を導入します。
さらに、特定の最先端の方法論、特に畳み込みニューラル ネットワーク (CNN) とアテンションベースの畳み込み再帰ニューラル ネットワーク (アテンション付き CRNN) を複製し、CRNN ベースのアプローチとの比較分析を実行します。
インドの 13 の異なる言語に対して包括的な評価を実施したところ、モデルの分類精度は 98\% 以上でした。
LID モデルは、言語的に類似した言語に対して 97% から 100% の範囲の高いパフォーマンス レベルを示します。
提案された LID モデルは、追加言語に対して高度な拡張性を示し、ノイズに対する強い耐性を示し、ヨーロッパ言語 (EU) データセットに適用すると、ノイズの多い環境で 91.2% の精度を達成します。

要約(オリジナル)

Language Identification (LID) is a crucial preliminary process in the field of Automatic Speech Recognition (ASR) that involves the identification of a spoken language from audio samples. Contemporary systems that can process speech in multiple languages require users to expressly designate one or more languages prior to utilization. The LID task assumes a significant role in scenarios where ASR systems are unable to comprehend the spoken language in multilingual settings, leading to unsuccessful speech recognition outcomes. The present study introduces convolutional recurrent neural network (CRNN) based LID, designed to operate on the Mel-frequency Cepstral Coefficient (MFCC) characteristics of audio samples. Furthermore, we replicate certain state-of-the-art methodologies, specifically the Convolutional Neural Network (CNN) and Attention-based Convolutional Recurrent Neural Network (CRNN with attention), and conduct a comparative analysis with our CRNN-based approach. We conducted comprehensive evaluations on thirteen distinct Indian languages and our model resulted in over 98\% classification accuracy. The LID model exhibits high-performance levels ranging from 97% to 100% for languages that are linguistically similar. The proposed LID model exhibits a high degree of extensibility to additional languages and demonstrates a strong resistance to noise, achieving 91.2% accuracy in a noisy setting when applied to a European Language (EU) dataset.

arxiv情報

著者 Atanu Mandal,Santanu Pal,Indranil Dutta,Mahidas Bhattacharya,Sudip Kumar Naskar
発行日 2023-10-25 15:21:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS, eess.SP パーマリンク