MSR-86K: An Evolving, Multilingual Corpus with 86,300 Hours of Transcribed Audio for Speech Recognition Research

要約

最近では、ChatGPT に代表される多言語人工知能アシスタントが非常に人気を得ています。
Whisper のようなシステムが証明しているように、人間とコンピューターの対話への重要なゲートウェイとして、多言語自動音声認識 (ASR) も大きな注目を集めています。
しかし、トレーニング データの独自の性質により、多言語 ASR を研究する研究者の取り組みが妨げられてきました。
この論文では、音声認識研究のための進化する大規模多言語コーパスである MSR-86K を紹介します。
このコーパスは YouTube で公開されているビデオから派生したもので、15 の言語と合計 86,300 時間の文字起こしされた ASR データで構成されています。
また、MSR-86K コーパスやその他のオープンソース コーパスを使用して、Whisper と競合する堅牢な多言語 ASR モデルをトレーニングする方法も紹介します。
MSR-86K は HuggingFace で公開される予定であり、このような大規模なコーパスが多言語 ASR の研究に新たな道を開くと私たちは信じています。

要約(オリジナル)

Recently, multilingual artificial intelligence assistants, exemplified by ChatGPT, have gained immense popularity. As a crucial gateway to human-computer interaction, multilingual automatic speech recognition (ASR) has also garnered significant attention, as evidenced by systems like Whisper. However, the proprietary nature of the training data has impeded researchers’ efforts to study multilingual ASR. This paper introduces MSR-86K, an evolving, large-scale multilingual corpus for speech recognition research. The corpus is derived from publicly accessible videos on YouTube, comprising 15 languages and a total of 86,300 hours of transcribed ASR data. We also introduce how to use the MSR-86K corpus and other open-source corpora to train a robust multilingual ASR model that is competitive with Whisper. MSR-86K will be publicly released on HuggingFace, and we believe that such a large corpus will pave new avenues for research in multilingual ASR.

arxiv情報

著者 Song Li,Yongbin You,Xuezhi Wang,Zhengkun Tian,Ke Ding,Guanglu Wan
発行日 2024-06-26 12:35:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク