要約
このペーパーでは、さまざまなアプリケーション ニーズに対応する大規模な多言語 ASR の要件を満たすように設計された AssemblyAI の産業規模の自動音声認識 (ASR) システムについて説明します。
私たちのシステムは、4 つの言語にわたる教師なし (1,250 万時間)、教師あり (18 万 8,000 時間)、および擬似ラベル付き (160 万時間) データで構成される多様なトレーニング データセットを活用しています。
BEST-RQ で事前トレーニングされたフルコンテキスト 600M パラメーター Conformer エンコーダーと、エンコーダーと共同で微調整された RNN-T デコーダーで構成されるモデル アーキテクチャの詳細な説明を提供します。
当社の広範な評価により、Whisperlarge や Canary-1B などの、より大規模で計算コストの高いモデルに対して競合する単語誤り率 (WER) が実証されました。
さらに、アーキテクチャの選択により、コードスイッチング機能の向上、最適化された Whisper ベースラインと比較して 5 倍の推論速度向上、音声データの幻覚率の 30% 削減、および比較した周囲ノイズの 90% 削減など、いくつかの重要な利点が得られます。
Whisper とタイムスタンプの精度が大幅に向上しました。
この作業を通じて、私たちはシステム中心のアプローチを採用して、本格的な ASR モデルのさまざまな側面を分析し、大規模に運用されている現実世界のサービスに役立つ実際に関連した洞察を取得します。
要約(オリジナル)
This paper describes AssemblyAI’s industrial-scale automatic speech recognition (ASR) system, designed to meet the requirements of large-scale, multilingual ASR serving various application needs. Our system leverages a diverse training dataset comprising unsupervised (12.5M hours), supervised (188k hours), and pseudo-labeled (1.6M hours) data across four languages. We provide a detailed description of our model architecture, consisting of a full-context 600M-parameter Conformer encoder pre-trained with BEST-RQ and an RNN-T decoder fine-tuned jointly with the encoder. Our extensive evaluation demonstrates competitive word error rates (WERs) against larger and more computationally expensive models, such as Whisper large and Canary-1B. Furthermore, our architectural choices yield several key advantages, including an improved code-switching capability, a 5x inference speedup compared to an optimized Whisper baseline, a 30% reduction in hallucination rate on speech data, and a 90% reduction in ambient noise compared to Whisper, along with significantly improved time-stamp accuracy. Throughout this work, we adopt a system-centric approach to analyzing various aspects of fully-fledged ASR models to gain practically relevant insights useful for real-world services operating at scale.
arxiv情報
著者 | Francis McCann Ramirez,Luka Chkhetiani,Andrew Ehrenberg,Robert McHardy,Rami Botros,Yash Khare,Andrea Vanzo,Taufiquzzaman Peyash,Gabriel Oexle,Michael Liang,Ilya Sklyar,Enver Fakhan,Ahmed Etefy,Daniel McCrystal,Sam Flamini,Domenic Donato,Takuya Yoshioka |
発行日 | 2024-04-16 14:55:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google