要約
本論文では、100以上の言語にわたる自動音声認識(ASR)を行う単一の大規模モデルであるUniversal Speech Model (USM)を紹介する。これは、300以上の言語にまたがる1200万時間の大規模なラベルなし多言語データセットでモデルのエンコーダを事前学習し、より小さなラベル付きデータセットで微調整することで達成される。ランダムプロジェクション量子化と音声-テキストモダリティマッチングを用いた多言語事前学習により、下流の多言語ASRと音声-テキスト翻訳タスクで最先端の性能を達成した。また、Whisperモデルの1/7のサイズのラベル付きトレーニングセットを使用しているにもかかわらず、我々のモデルは、多くの言語におけるドメイン内およびドメイン外の音声認識タスクにおいて同等以上の性能を示すことを実証する。
要約(オリジナル)
We introduce the Universal Speech Model (USM), a single large model that performs automatic speech recognition (ASR) across 100+ languages. This is achieved by pre-training the encoder of the model on a large unlabeled multilingual dataset of 12 million (M) hours spanning over 300 languages, and fine-tuning on a smaller labeled dataset. We use multilingual pre-training with random-projection quantization and speech-text modality matching to achieve state-of-the-art performance on downstream multilingual ASR and speech-to-text translation tasks. We also demonstrate that despite using a labeled training set 1/7-th the size of that used for the Whisper model, our model exhibits comparable or better performance on both in-domain and out-of-domain speech recognition tasks across many languages.
arxiv情報
著者 | Yu Zhang,Wei Han,James Qin,Yongqiang Wang,Ankur Bapna,Zhehuai Chen,Nanxin Chen,Bo Li,Vera Axelrod,Gary Wang,Zhong Meng,Ke Hu,Andrew Rosenberg,Rohit Prabhavalkar,Daniel S. Park,Parisa Haghani,Jason Riesa,Ginger Perng,Hagen Soltau,Trevor Strohman,Bhuvana Ramabhadran,Tara Sainath,Pedro Moreno,Chung-Cheng Chiu,Johan Schalkwyk,Françoise Beaufays,Yonghui Wu |
発行日 | 2023-03-03 01:18:52+00:00 |
arxivサイト | arxiv_id(pdf) |