SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

要約

音声テキスト プロンプトに基づく生成音声モデルの最近の進歩により、高品質のゼロショット テキスト読み上げなどの目覚ましい革新が可能になりました。
しかし、既存のモデルは、入力音声の変換や、不利な音響条件でキャプチャされた音声の処理を含む、さまざまなオーディオテキスト音声生成タスクを処理する際に依然として制限に直面しています。
このペーパーでは、クリーンな信号とノイズの多い信号の両方を処理する、ゼロショット TTS およびさまざまな音声変換タスクが可能な多用途音声生成モデルである SpeechX を紹介します。
SpeechX は、ニューラル コーデック言語モデリングとタスク依存のプロンプトを使用したマルチタスク学習を組み合わせ、統合された拡張可能なモデリングを可能にし、音声強調および変換タスクでテキスト入力を活用する一貫した方法を提供します。
実験結果では、ゼロショット TTS、ノイズ抑制、対象話者抽出、音声除去、背景雑音の有無にかかわらず音声編集などのさまざまなタスクにおける SpeechX の有効性が示されており、タスク全体にわたって特殊なモデルと同等またはそれ以上のパフォーマンスを達成しています。
デモのサンプルについては、https://aka.ms/speechx を参照してください。

要約(オリジナル)

Recent advancements in generative speech models based on audio-text prompts have enabled remarkable innovations like high-quality zero-shot text-to-speech. However, existing models still face limitations in handling diverse audio-text speech generation tasks involving transforming input speech and processing audio captured in adverse acoustic conditions. This paper introduces SpeechX, a versatile speech generation model capable of zero-shot TTS and various speech transformation tasks, dealing with both clean and noisy signals. SpeechX combines neural codec language modeling with multi-task learning using task-dependent prompting, enabling unified and extensible modeling and providing a consistent way for leveraging textual input in speech enhancement and transformation tasks. Experimental results show SpeechX’s efficacy in various tasks, including zero-shot TTS, noise suppression, target speaker extraction, speech removal, and speech editing with or without background noise, achieving comparable or superior performance to specialized models across tasks. See https://aka.ms/speechx for demo samples.

arxiv情報

著者 Xiaofei Wang,Manthan Thakker,Zhuo Chen,Naoyuki Kanda,Sefik Emre Eskimez,Sanyuan Chen,Min Tang,Shujie Liu,Jinyu Li,Takuya Yoshioka
発行日 2023-08-14 01:01:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク