Gammatonegram Representation for End-to-End Dysarthric Speech Processing Tasks: Speech Recognition, Speaker Identification, and Intelligibility Assessment

要約

構音障害は、人間の音声システムに障害を引き起こし、音声の質と明瞭度を低下させる障害です。
この影響により、通常の音声処理システムは障害のある音声に対しては適切に動作できません。
この障害は通常、身体障害に関連しています。
したがって、スマート ホームで音声コマンドを受信して​​いくつかのタスクを実行できるシステムを設計することは、大きな成果となる可能性があります。
この研究では、畳み込みニューラル ネットワークの入力として使用される、識別可能な詳細を持つオーディオ ファイルを表現する効果的な方法としてガンマトネグラムを紹介します。
言い換えれば、各音声ファイルを画像に変換し、さまざまなシナリオで音声を分類するための画像認識システムを提案します。
提案された CNN は、事前にトレーニングされた Alexnet 上の転移学習手法に基づいています。
本研究では、提案システムの音声認識、話者識別、明瞭度評価の効率を評価する。
UA データセットの結果によると、提案された音声認識システムは話者依存モードで 91.29% の精度を達成し、話者識別システムはテキスト依存モードで 87.74% の精度を達成し、明瞭度評価システムは 2 つのモードで 96.47% の精度を達成しました。
クラスモード。
最後に、完全に自動で動作するマルチネットワーク音声認識システムを提案します。
このシステムは 2 クラス明瞭度評価システムとカスケード配置されており、このシステムの出力によって各音声認識ネットワークがアクティブになります。
このアーキテクチャは、92.3% の WRR の精度を達成します。
この論文のソースコードは入手可能です。

要約(オリジナル)

Dysarthria is a disability that causes a disturbance in the human speech system and reduces the quality and intelligibility of a person’s speech. Because of this effect, the normal speech processing systems can not work properly on impaired speech. This disability is usually associated with physical disabilities. Therefore, designing a system that can perform some tasks by receiving voice commands in the smart home can be a significant achievement. In this work, we introduce gammatonegram as an effective method to represent audio files with discriminative details, which is used as input for the convolutional neural network. On the other word, we convert each speech file into an image and propose image recognition system to classify speech in different scenarios. Proposed CNN is based on the transfer learning method on the pre-trained Alexnet. In this research, the efficiency of the proposed system for speech recognition, speaker identification, and intelligibility assessment is evaluated. According to the results on the UA dataset, the proposed speech recognition system achieved 91.29% accuracy in speaker-dependent mode, the speaker identification system acquired 87.74% accuracy in text-dependent mode, and the intelligibility assessment system achieved 96.47% accuracy in two-class mode. Finally, we propose a multi-network speech recognition system that works fully automatically. This system is located in a cascade arrangement with the two-class intelligibility assessment system, and the output of this system activates each one of the speech recognition networks. This architecture achieves an accuracy of 92.3% WRR. The source code of this paper is available.

arxiv情報

著者 Aref Farhadipour,Hadi Veisi
発行日 2023-07-06 21:10:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク