Scaling A Simple Approach to Zero-Shot Speech Recognition

要約

自動音声認識の対象言語の拡大は急速に進んでいますが、この分野は既知の筆記体ですべての言語をカバーするにはまだ程遠いです。
最近の研究では、少量のテキスト データのみを必要とするゼロショット アプローチで有望な結果が得られましたが、精度は使用されるフォネマイザーの品質に大きく依存し、未知の言語には弱いことがよくあります。
この論文では、ローマ字表記と、従来技術よりも 3 桁多い 1,078 の異なる言語のデータでトレーニングされた音響モデルに基づいた概念的に単純なアプローチである MMS Zero-shot を紹介します。
MMS Zero-shot は、過去の最高の作品と比較して、100 の未見の言語にわたって平均文字エラー率を相対的に 46% 削減します。
さらに、私たちのアプローチのエラー率は、ドメイン内監視ベースラインと比較してわずか 2.5 倍高いだけですが、私たちのアプローチは評価言語のラベル付きデータをまったく使用しません。

要約(オリジナル)

Despite rapid progress in increasing the language coverage of automatic speech recognition, the field is still far from covering all languages with a known writing script. Recent work showed promising results with a zero-shot approach requiring only a small amount of text data, however, accuracy heavily depends on the quality of the used phonemizer which is often weak for unseen languages. In this paper, we present MMS Zero-shot a conceptually simpler approach based on romanization and an acoustic model trained on data in 1,078 different languages or three orders of magnitude more than prior art. MMS Zero-shot reduces the average character error rate by a relative 46% over 100 unseen languages compared to the best previous work. Moreover, the error rate of our approach is only 2.5x higher compared to in-domain supervised baselines, while our approach uses no labeled data for the evaluation languages at all.

arxiv情報

著者 Jinming Zhao,Vineel Pratap,Michael Auli
発行日 2024-07-25 08:08:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク