要約
高品質の音声ダイアログデータセットは、音声llm開発には重要ですが、既存の獲得方法は大きな制限に直面しています。
人間の記録には高いコストとプライバシーの懸念が発生しますが、合成アプローチには会話の真正性が欠けていることがよくあります。
これらの課題に対処するために、自然な音声対話を効率的に生成するための制作対応フレームワークである\ textSc {SpeechDialogueFactory}を紹介します。
私たちのソリューションでは、メタデータの生成、対話のスクリプト、麻痺性の豊富な発話シミュレーション、音声クローンを使用した自然な音声合成など、包括的なパイプラインを採用しています。
さらに、このシステムは、詳細なサンプル検査とハイスループットバッチ合成モードのためのインタラクティブなUIを提供します。
評価によると、システムによって生成された対話は、生産コストを大幅に削減しながら、人間の録音に匹敵する品質を達成していることが示されています。
英語と中国語で利用可能な例データセットとともに、オープンソースツールキットとしての作業をリリースし、Speect-LLMの研究開発に研究者と開発者に力を与えています。
要約(オリジナル)
High-quality speech dialogue datasets are crucial for Speech-LLM development, yet existing acquisition methods face significant limitations. Human recordings incur high costs and privacy concerns, while synthetic approaches often lack conversational authenticity. To address these challenges, we introduce \textsc{SpeechDialogueFactory}, a production-ready framework for generating natural speech dialogues efficiently. Our solution employs a comprehensive pipeline including metadata generation, dialogue scripting, paralinguistic-enriched utterance simulation, and natural speech synthesis with voice cloning. Additionally, the system provides an interactive UI for detailed sample inspection and a high-throughput batch synthesis mode. Evaluations show that dialogues generated by our system achieve a quality comparable to human recordings while significantly reducing production costs. We release our work as an open-source toolkit, alongside example datasets available in English and Chinese, empowering researchers and developers in Speech-LLM research and development.
arxiv情報
著者 | Minghan Wang,Ye Bai,Yuxia Wang,Thuy-Trang Vu,Ehsan Shareghi,Gholamreza Haffari |
発行日 | 2025-03-31 08:52:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google