要約
多言語自動音声認識 (ASR) モデルにより、音声テクノロジの使いやすさがさまざまな言語に拡張されました。
ただし、これらのモデルが処理しなければならない言語の数では、さまざまな言語間での不均衡なパフォーマンスを理解するための鍵は、モデルが実際に転写する必要がある言語を認識しているかどうかを調べることです。
この論文では、モデル全体を言語同一性 (LID) で調整することにより、102 言語のオープン ASR ベンチマークである FLEURS のパフォーマンスを改善する取り組みを紹介します。
最近の Connectionist Temporal Classification (CTC) 研究から着想を得た手法を調査して、モデルが多数の言語を処理できるようにし、補助タスクの LID 予測を条件付けします。
私たちの実験結果は、標準的な CTC/Attention ベースのハイブリッド モデルに対する私たちの手法の有効性を示しています。
さらに、Conformer アーキテクチャを備えた自己教師ありモデルを使用する当社の最先端システムは、FLEURS での以前の作業の結果を相対的に 28.4% CER 改善します。
トレーニング済みモデルは再現可能なレシピであり、https://github.com/espnet/espnet/tree/master/egs2/fleurs/asr1 で入手できます。
要約(オリジナル)
Multilingual Automatic Speech Recognition (ASR) models have extended the usability of speech technologies to a wide variety of languages. With how many languages these models have to handle, however, a key to understanding their imbalanced performance across different languages is to examine if the model actually knows which language it should transcribe. In this paper, we introduce our work on improving performance on FLEURS, a 102-language open ASR benchmark, by conditioning the entire model on language identity (LID). We investigate techniques inspired from recent Connectionist Temporal Classification (CTC) studies to help the model handle the large number of languages, conditioning on the LID predictions of auxiliary tasks. Our experimental results demonstrate the effectiveness of our technique over standard CTC/Attention-based hybrid mod- els. Furthermore, our state-of-the-art systems using self-supervised models with the Conformer architecture improve over the results of prior work on FLEURS by a relative 28.4% CER. Trained models are reproducible recipes are available at https://github.com/ espnet/espnet/tree/master/egs2/fleurs/asr1.
arxiv情報
著者 | William Chen,Brian Yan,Jiatong Shi,Yifan Peng,Soumi Maiti,Shinji Watanabe |
発行日 | 2023-02-24 18:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google