要約
100 以上の言語で自動音声認識 (ASR) を実行する単一の大規模モデルである Universal Speech Model (USM) を導入します。
これは、300 以上の言語にまたがる 1,200 万 (M) 時間のラベルのない大規模な多言語データセットでモデルのエンコーダーを事前トレーニングし、小さなラベル付きデータセットで微調整することによって実現されます。
ランダム射影量子化と音声テキスト モダリティ マッチングを備えた多言語事前トレーニングを使用して、ダウンストリームの多言語 ASR および音声からテキストへの翻訳タスクで最先端のパフォーマンスを実現します。
また、Whisper モデルに使用されるサイズの 1/7 のラベル付きトレーニング セットを使用しているにもかかわらず、多くの言語で、ドメイン内およびドメイン外の両方の音声認識タスクで、モデルが同等またはそれ以上のパフォーマンスを示すことも示しています。
要約(オリジナル)
We introduce the Universal Speech Model (USM), a single large model that performs automatic speech recognition (ASR) across 100+ languages. This is achieved by pre-training the encoder of the model on a large unlabeled multilingual dataset of 12 million (M) hours spanning over 300 languages, and fine-tuning on a smaller labeled dataset. We use multilingual pre-training with random-projection quantization and speech-text modality matching to achieve state-of-the-art performance on downstream multilingual ASR and speech-to-text translation tasks. We also demonstrate that despite using a labeled training set 1/7-th the size of that used for the Whisper model, our model exhibits comparable or better performance on both in-domain and out-of-domain speech recognition tasks across many languages.
arxiv情報
| 著者 | Yu Zhang,Wei Han,James Qin,Yongqiang Wang,Ankur Bapna,Zhehuai Chen,Nanxin Chen,Bo Li,Vera Axelrod,Gary Wang,Zhong Meng,Ke Hu,Andrew Rosenberg,Rohit Prabhavalkar,Daniel S. Park,Parisa Haghani,Jason Riesa,Ginger Perng,Hagen Soltau,Trevor Strohman,Bhuvana Ramabhadran,Tara Sainath,Pedro Moreno,Chung-Cheng Chiu,Johan Schalkwyk,Françoise Beaufays,Yonghui Wu |
| 発行日 | 2023-03-02 07:47:18+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google