要約
効果的な音声モデリングの恩恵を受けて、現在の音声大規模言語モデル (SLLM) は、コンテキスト内の音声生成と、目に見えない話者への効率的な一般化において優れた機能を実証しています。
ただし、一般的な情報モデリング プロセスには特定の冗長性があり、音声生成が非効率になります。
我々は、大規模な音声生成において意味情報と知覚情報を分離する方法である情報連鎖生成 (CoIG) を提案します。
これに基づいて、意味論的および知覚情報モデリングに効率的な 80 億パラメータの SLLM である SpeechGPT-Gen を開発します。
これは、意味情報モデリングのための LLM に基づく自己回帰モデルと、知覚情報モデリングのためのフロー マッチングを採用した非自己回帰モデルで構成されます。
さらに、フローマッチングの効率を高めるために、事前分布に意味論的な情報を注入する新しいアプローチを導入します。
広範な実験結果は、SpeechGPT-Gen がゼロショットのテキストから音声への変換、ゼロショットの音声変換、および音声から音声への対話において著しく優れていることを実証しており、音声の意味論的および知覚的側面の捕捉とモデリングにおける CoIG の顕著な熟練度を裏付けています。
コードとモデルは https://github.com/0nutation/SpeechGPT で入手できます。
要約(オリジナル)
Benefiting from effective speech modeling, current Speech Large Language Models (SLLMs) have demonstrated exceptional capabilities in in-context speech generation and efficient generalization to unseen speakers. However, the prevailing information modeling process is encumbered by certain redundancies, leading to inefficiencies in speech generation. We propose Chain-of-Information Generation (CoIG), a method for decoupling semantic and perceptual information in large-scale speech generation. Building on this, we develop SpeechGPT-Gen, an 8-billion-parameter SLLM efficient in semantic and perceptual information modeling. It comprises an autoregressive model based on LLM for semantic information modeling and a non-autoregressive model employing flow matching for perceptual information modeling. Additionally, we introduce the novel approach of infusing semantic information into the prior distribution to enhance the efficiency of flow matching. Extensive experimental results demonstrate that SpeechGPT-Gen markedly excels in zero-shot text-to-speech, zero-shot voice conversion, and speech-to-speech dialogue, underscoring CoIG’s remarkable proficiency in capturing and modeling speech’s semantic and perceptual dimensions. Code and models are available at https://github.com/0nutation/SpeechGPT.
arxiv情報
著者 | Dong Zhang,Xin Zhang,Jun Zhan,Shimin Li,Yaqian Zhou,Xipeng Qiu |
発行日 | 2024-01-25 17:24:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google