要約
コードスイッチング(CS)とは、異なる言語の単語やフレーズを交互に使用する現象を指す。今日のニューラル・エンド・ツー・エンド(E2E)モデルは、自動音声認識(ASR)タスクにおいて最先端の性能を発揮する一方で、これらのシステムが非常にデータ集約的であることは一般に知られている。しかし、書き起こされて整列されたCS音声はごくわずかしかありません。この問題を克服し、CS音声を書き起こせる多言語システムを訓練するために、我々は、異なる原言語の音声と対応するラベルを連結するという、シンプルかつ効果的なデータ補強を提案する。この学習データを用いることで、我々のE2EモデルはCS音声の書き起こしを改善する。また、単言語テストにおいても単言語モデルを上回る。その結果、このオーグメンテーション技術により、学習時には見られなかった文節間の言語スイッチに対するモデルの性能が5,03%向上することが示された。
要約(オリジナル)
Code-Switching (CS) is referred to the phenomenon of alternately using words and phrases from different languages. While today’s neural end-to-end (E2E) models deliver state-of-the-art performances on the task of automatic speech recognition (ASR) it is commonly known that these systems are very data-intensive. However, there is only a few transcribed and aligned CS speech available. To overcome this problem and train multilingual systems which can transcribe CS speech, we propose a simple yet effective data augmentation in which audio and corresponding labels of different source languages are concatenated. By using this training data, our E2E model improves on transcribing CS speech. It also surpasses monolingual models on monolingual tests. The results show that this augmentation technique can even improve the model’s performance on inter-sentential language switches not seen during training by 5,03% WER.
arxiv情報
著者 | Enes Yavuz Ugan,Christian Huber,Juan Hussain,Alexander Waibel |
発行日 | 2023-07-03 10:01:47+00:00 |
arxivサイト | arxiv_id(pdf) |