要約
自然言語処理における Transformer モデルからの双方向エンコーダ表現の台頭により、音声コミュニティは開発手法の一部を採用しました。
したがって、最先端の結果を得るために必要なデータを削減するために、Wav2Vec モデルが導入されました。
この研究ではこの知識を活用し、微調整密層を生物学的プロセスにヒントを得た側方抑制層に置き換えるだけで、事前トレーニングされた音声モデルのパフォーマンスを向上させます。
リソースの少ない言語であるルーマニア語での実験では、側方抑制レイヤーを使用した結果、単語誤り率 (WER) が平均 12.5% 改善されたことがわかりました。
さらに、ルーマニア語音声コーパスと Robin Technical Acquisition Corpus の両方で、それぞれ 1.78% WER と 29.64% WER という最先端の結果が得られました。
要約(オリジナル)
With the rise of bidirectional encoder representations from Transformer models in natural language processing, the speech community has adopted some of their development methodologies. Therefore, the Wav2Vec models were introduced to reduce the data required to obtain state-of-the-art results. This work leverages this knowledge and improves the performance of the pre-trained speech models by simply replacing the fine-tuning dense layer with a lateral inhibition layer inspired by the biological process. Our experiments on Romanian, a low-resource language, show an average improvement of 12.5% word error rate (WER) using the lateral inhibition layer. In addition, we obtain state-of-the-art results on both the Romanian Speech Corpus and the Robin Technical Acquisition Corpus with 1.78% WER and 29.64% WER, respectively.
arxiv情報
著者 | Andrei-Marius Avram,Răzvan-Alexandru Smădu,Vasile Păiş,Dumitru-Clementin Cercel,Radu Ion,Dan Tufiş |
発行日 | 2023-06-30 16:48:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google