Employing Hybrid Deep Neural Networks on Dari Speech

要約

タイトル:ダリ語音声に対するハイブリッド深層ニューラルネットワークの利用

要約:
– 人間とコンピューターの相互作用を促進し、向上させるために、音声認識システムの開発と改善に関する研究に熱心に取り組まれている。
– ゲームから翻訳システム、ロボットなど、あらゆるものに使われる自動音声認識(ASR)システムが普及している。しかし、低資源言語の音声認識システムに関する研究はまだ不十分である。
– 本記事は、Mel周波数ケプストラム係数(MFCCs)特徴抽出法と、畳み込みニューラルネットワーク(CNN)、再帰型ニューラルネットワーク(RNN)、多層パーセプトロン(MLP)を組み合わせた2つのハイブリッドモデルを含む3つの深層学習モデルを用いて、ダリ語の個別の単語を認識することに焦点を当てている。
– 1000の発話の20の短いダリ語用語から成る単語コーパスを作成し、これらのモデルを評価した。研究は平均正解率98.365%を達成した。

要約(オリジナル)

This paper is an extension of our previous conference paper. In recent years, there has been a growing interest among researchers in developing and improving speech recognition systems to facilitate and enhance human-computer interaction. Today, Automatic Speech Recognition (ASR) systems have become ubiquitous, used in everything from games to translation systems, robots, and more. However, much research is still needed on speech recognition systems for low-resource languages. This article focuses on the recognition of individual words in the Dari language using the Mel-frequency cepstral coefficients (MFCCs) feature extraction method and three different deep neural network models: Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), and Multilayer Perceptron (MLP), as well as two hybrid models combining CNN and RNN. We evaluate these models using an isolated Dari word corpus that we have created, consisting of 1000 utterances for 20 short Dari terms. Our study achieved an impressive average accuracy of 98.365%.

arxiv情報

著者 Jawid Ahmad Baktash,Mursal Dawodi
発行日 2023-05-04 23:10:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク