要約
SpeechBrain は、PyTorch に基づくオープンソースの会話 AI ツールキットで、特に音声認識、音声強化、話者認識、テキスト読み上げなどの音声処理タスクに重点を置いています。
事前トレーニングされたモデルと、そのトレーニングに必要なコードとアルゴリズムの完全な「レシピ」の両方をリリースすることで、透明性と複製可能性を促進します。
このペーパーでは、ツールキットの進化における重要なマイルストーンである SpeechBrain 1.0 について説明します。このツールキットには、音声、オーディオ、および言語処理タスク用の 200 以上のレシピと、Hugging Face で利用可能な 100 以上のモデルが含まれています。
SpeechBrain 1.0 には、新しいモデル、タスク、モダリティに加えて、多様な学習モダリティ、大規模言語モデル (LLM) の統合、および高度なデコード戦略をサポートする新しいテクノロジが導入されています。
また、新しいベンチマーク リポジトリも含まれており、研究者にさまざまなタスクにわたってモデルを評価するための統合プラットフォームを提供します。
要約(オリジナル)
SpeechBrain is an open-source Conversational AI toolkit based on PyTorch, focused particularly on speech processing tasks such as speech recognition, speech enhancement, speaker recognition, text-to-speech, and much more. It promotes transparency and replicability by releasing both the pre-trained models and the complete ‘recipes’ of code and algorithms required for training them. This paper presents SpeechBrain 1.0, a significant milestone in the evolution of the toolkit, which now has over 200 recipes for speech, audio, and language processing tasks, and more than 100 models available on Hugging Face. SpeechBrain 1.0 introduces new technologies to support diverse learning modalities, Large Language Model (LLM) integration, and advanced decoding strategies, along with novel models, tasks, and modalities. It also includes a new benchmark repository, offering researchers a unified platform for evaluating models across diverse tasks
arxiv情報
著者 | Mirco Ravanelli,Titouan Parcollet,Adel Moumen,Sylvain de Langen,Cem Subakan,Peter Plantinga,Yingzhi Wang,Pooneh Mousavi,Luca Della Libera,Artem Ploujnikov,Francesco Paissan,Davide Borra,Salah Zaiem,Zeyu Zhao,Shucong Zhang,Georgios Karakasidis,Sung-Lin Yeh,Aku Rouhe,Rudolf Braun,Florian Mai,Juan Zuluaga-Gomez,Seyed Mahed Mousavi,Andreas Nautsch,Xuechen Liu,Sangeet Sagar,Jarod Duret,Salima Mdhaffar,Gaelle Laperriere,Renato De Mori,Yannick Esteve |
発行日 | 2024-07-02 12:53:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google