要約
Speech Language Models(SpeechLMS)および音声駆動型エージェントアプリケーションの開発を民主化するために設計されたオープンツールキットであるESPNetSpeechLmを紹介します。
このツールキットは、普遍的なシーケンシャルモデリングの問題としてフレーミングすることにより、音声処理タスクを標準化し、データの前処理、プリトレーニング、推論、およびタスク評価のまとまりのあるワークフローを網羅しています。
ESPNETSpeheechLMを使用すると、ユーザーはタスクテンプレートを簡単に定義し、キー設定を構成し、シームレスで合理化されたSpeechLM開発を可能にすることができます。
ツールキットは、ワークフローのすべての段階で高度に構成可能なモジュールを提供することにより、柔軟性、効率、およびスケーラビリティを保証します。
その機能を説明するために、多様なベンチマーク全体でテキストタスクと音声タスクの両方で事前に訓練された1.7Bパラメーターモデルを含む、ESPNetSpeechLMをESPNetLMSでどのように構築できるかを示す複数のユースケースを提供します。
ツールキットとそのレシピは、https://github.com/espnet/espnet/tree/speechlmで完全に透明で再現可能です。
要約(オリジナル)
We present ESPnet-SpeechLM, an open toolkit designed to democratize the development of speech language models (SpeechLMs) and voice-driven agentic applications. The toolkit standardizes speech processing tasks by framing them as universal sequential modeling problems, encompassing a cohesive workflow of data preprocessing, pre-training, inference, and task evaluation. With ESPnet-SpeechLM, users can easily define task templates and configure key settings, enabling seamless and streamlined SpeechLM development. The toolkit ensures flexibility, efficiency, and scalability by offering highly configurable modules for every stage of the workflow. To illustrate its capabilities, we provide multiple use cases demonstrating how competitive SpeechLMs can be constructed with ESPnet-SpeechLM, including a 1.7B-parameter model pre-trained on both text and speech tasks, across diverse benchmarks. The toolkit and its recipes are fully transparent and reproducible at: https://github.com/espnet/espnet/tree/speechlm.
arxiv情報
著者 | Jinchuan Tian,Jiatong Shi,William Chen,Siddhant Arora,Yoshiki Masuyama,Takashi Maekaku,Yihan Wu,Junyi Peng,Shikhar Bharadwaj,Yiwen Zhao,Samuele Cornell,Yifan Peng,Xiang Yue,Chao-Han Huck Yang,Graham Neubig,Shinji Watanabe |
発行日 | 2025-02-24 15:31:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google