要約
今日、私たちは非営利的な使用のためのコア音声認識とダイアリ化化モデルをオープンソーシングしています。
開発者向けのフルプロダクションパイプラインと、実験用の解決された研究モデルの両方をリリースしています。
Revは、これらのリリースが音声テクノロジーの急速に移動するドメインの研究と革新を促進することを望んでいます。
本日リリースされた音声認識モデルは、さまざまな長型の音声認識ドメインにわたって、既存のオープンソース認識モデルをすべて上回っています。
要約(オリジナル)
Today, we are open-sourcing our core speech recognition and diarization models for non-commercial use. We are releasing both a full production pipeline for developers as well as pared-down research models for experimentation. Rev hopes that these releases will spur research and innovation in the fast-moving domain of voice technology. The speech recognition models released today outperform all existing open source speech recognition models across a variety of long-form speech recognition domains.
arxiv情報
著者 | Nishchal Bhandari,Danny Chen,Miguel Ángel del Río Fernández,Natalie Delworth,Jennifer Drexler Fox,Migüel Jetté,Quinten McNamara,Corey Miller,Ondřej Novotný,Ján Profant,Nan Qin,Martin Ratajczak,Jean-Philippe Robichaud |
発行日 | 2025-02-21 16:15:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google