Moonshine: Speech Recognition for Live Transcription and Voice Commands

要約

このペーパーでは、ライブ文字起こしと音声コマンド処理用に最適化された音声認識モデル ファミリである Moonshine について紹介します。
Moonshine はエンコーダ/デコーダ変換アーキテクチャに基づいており、従来の絶対位置埋め込みの代わりに回転位置埋め込み (RoPE) を採用しています。
モデルはさまざまな長さの音声セグメントでトレーニングされますが、ゼロパディングは使用されないため、推論時のエンコーダーの効率が向上します。
OpenAI の Whisper tiny-en に対してベンチマークを行った場合、Moonshine Tiny は、標準評価データセット全体で単語エラー率の増加を発生させずに、10 秒の音声セグメントを書き起こすためのコンピューティング要件を 5 分の 1 に削減することを実証しました。
これらの結果は、リアルタイムおよびリソースに制約のあるアプリケーションに対する Moonshine の可能性を強調しています。

要約(オリジナル)

This paper introduces Moonshine, a family of speech recognition models optimized for live transcription and voice command processing. Moonshine is based on an encoder-decoder transformer architecture and employs Rotary Position Embedding (RoPE) instead of traditional absolute position embeddings. The model is trained on speech segments of various lengths, but without using zero-padding, leading to greater efficiency for the encoder during inference time. When benchmarked against OpenAI’s Whisper tiny-en, Moonshine Tiny demonstrates a 5x reduction in compute requirements for transcribing a 10-second speech segment while incurring no increase in word error rates across standard evaluation datasets. These results highlight Moonshine’s potential for real-time and resource-constrained applications.

arxiv情報

著者 Nat Jeffries,Evan King,Manjunath Kudlur,Guy Nicholson,James Wang,Pete Warden
発行日 2024-10-22 13:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク