MooER: LLM-based Speech Recognition and Translation Models from Moore Threads

要約

本稿では、Moore Threads の LLM ベースの大規模自動音声認識 (ASR) / 自動音声翻訳 (AST) モデルである MooER を紹介します。
トレーニングには、オープンソースと自己収集の音声データを含む 5000 時間の擬似ラベル付きデータセットが使用されます。
最大数十万時間のラベル付き音声データでトレーニングされた他のオープンソース モデルに匹敵するパフォーマンスを達成します。
一方、Covost2 Zh2en テストセットで行われた実験は、私たちのモデルが他のオープンソースの音声 LLM よりも優れていることを示唆しています。
25.2のBLEUスコアが得られます。
この論文の主な貢献を以下に要約します。
まず、この論文では、追加の手動による注釈や選択を行わずに、小さなサイズの疑似ラベル付きデータを使用して、音声関連タスク (ASR および AST を含む) に関するエンコーダーと LLM のトレーニング戦略を示します。
次に、ASR モデルと AST モデルをリリースし、近い将来トレーニング コードと戦略をオープンソース化する予定です。
また、8wh規模の学習データで学習したモデルも後日公開予定です。

要約(オリジナル)

In this paper, we present MooER, a LLM-based large-scale automatic speech recognition (ASR) / automatic speech translation (AST) model of Moore Threads. A 5000h pseudo labeled dataset containing open source and self collected speech data is used for training. We achieve performance comparable to other open source models trained with up to hundreds of thousands of hours of labeled speech data. Meanwhile, experiments conducted on Covost2 Zh2en testset suggest that our model outperforms other open source Speech LLMs. A BLEU score of 25.2 can be obtained. The main contributions of this paper are summarized as follows. First, this paper presents a training strategy for encoders and LLMs on speech related tasks (including ASR and AST) using a small size of pseudo labeled data without any extra manual annotation and selection. Second, we release our ASR and AST models and plan to open-source our training code and strategy in the near future. Moreover, a model trained on 8wh scale training data is planned to be released later on.

arxiv情報

著者 Junhao Xu,Zhenlin Liang,Yi Liu,Yichao Hu,Jian Li,Yajun Zheng,Meng Cai,Hua Wang
発行日 2024-08-09 14:43:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク