Exploring Turkish Speech Recognition via Hybrid CTC/Attention Architecture and Multi-feature Fusion Network

要約

近年、ディープラーニングに基づくEnd-to-Endの音声認識技術が急速に発展しています。
トルコ語の音声データが不足しているため、トルコ語の音声認識システムのパフォーマンスが低下しています。
最初に、この論文は一連の音声認識チューニング技術を研究します。
結果は、速度摂動とノイズ付加を組み合わせたデータ拡張技術が採用され、ビーム探索幅が 16 に設定されている場合に、モデルのパフォーマンスが最高であることを示しています。
特徴抽出、この論文では、新しい特徴抽出器 LSPC を提案します。
LSPC と LiGRU ネットワークを組み合わせて共有エンコーダ構造を形成し、モデル圧縮を実現します。
結果は、Fbank 機能のみを使用した場合、LSPC のパフォーマンスが MSPC および VGGnet よりも優れており、WER がそれぞれ 1.01% および 2.53% 改善されていることを示しています。
最後に、上記の 2 点に基づいて、エンコーダの主要な構造として、新しい多機能フュージョン ネットワークを提案します。
結果は、LSPC に基づく提案された特徴融合ネットワークの WER が、LSPC を使用した単一の特徴 (Fbank 特徴と Spectrogram 特徴) 抽出と比較して、0.82% と 1.94% 改善されることを示しています。
私たちのモデルは、高度なエンド ツー エンド モデルに匹敵するパフォーマンスを実現します。

要約(オリジナル)

In recent years, End-to-End speech recognition technology based on deep learning has developed rapidly. Due to the lack of Turkish speech data, the performance of Turkish speech recognition system is poor. Firstly, this paper studies a series of speech recognition tuning technologies. The results show that the performance of the model is the best when the data enhancement technology combining speed perturbation with noise addition is adopted and the beam search width is set to 16. Secondly, to maximize the use of effective feature information and improve the accuracy of feature extraction, this paper proposes a new feature extractor LSPC. LSPC and LiGRU network are combined to form a shared encoder structure, and model compression is realized. The results show that the performance of LSPC is better than MSPC and VGGnet when only using Fbank features, and the WER is improved by 1.01% and 2.53% respectively. Finally, based on the above two points, a new multi-feature fusion network is proposed as the main structure of the encoder. The results show that the WER of the proposed feature fusion network based on LSPC is improved by 0.82% and 1.94% again compared with the single feature (Fbank feature and Spectrogram feature) extraction using LSPC. Our model achieves performance comparable to that of advanced End-to-End models.

arxiv情報

著者 Zeyu Ren,Nurmement Yolwas,Huiru Wang,Wushour Slamu
発行日 2023-03-22 04:11:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク