要約
多言語およびコードスイッチング自動音声認識(ASR)システムを最適化するために、スクリプトを多用する言語のためのローマ字エンコーディングを導入する。Roman2Charモジュールを搭載したFastConformer-RNNTフレームワークにおいて、バランスの取れた連結トークナイザーと共にローマ字エンコーディングを採用することで、語彙と出力次元を大幅に削減し、より大きな学習バッチとメモリ消費量の削減を可能にする。本手法は、音響モデリングと言語モデリングを分離し、システムの柔軟性と適応性を向上させる。我々の研究では、この方法を北京語-英語ASRに適用することで、語彙を63.51%削減し、SEAMEのコード切り替えベンチマークで13.72%と15.03%の顕著な性能向上を達成した。標準中国語-韓国語および標準中国語-日本語を対象としたアブレーション研究により、本手法が他の文字の多い言語の複雑さにも対応できることが明らかになり、より汎用的で効果的な多言語ASRシステムへの道が開かれた。
要約(オリジナル)
We introduce romanization encoding for script-heavy languages to optimize multilingual and code-switching Automatic Speech Recognition (ASR) systems. By adopting romanization encoding alongside a balanced concatenated tokenizer within a FastConformer-RNNT framework equipped with a Roman2Char module, we significantly reduce vocabulary and output dimensions, enabling larger training batches and reduced memory consumption. Our method decouples acoustic modeling and language modeling, enhancing the flexibility and adaptability of the system. In our study, applying this method to Mandarin-English ASR resulted in a remarkable 63.51% vocabulary reduction and notable performance gains of 13.72% and 15.03% on SEAME code-switching benchmarks. Ablation studies on Mandarin-Korean and Mandarin-Japanese highlight our method’s strong capability to address the complexities of other script-heavy languages, paving the way for more versatile and effective multilingual ASR systems.
arxiv情報
著者 | Wen Ding,Fei Jia,Hainan Xu,Yu Xi,Junjie Lai,Boris Ginsburg |
発行日 | 2024-07-05 09:13:24+00:00 |
arxivサイト | arxiv_id(pdf) |