要約
近年の音声言語モデルの進歩は著しいが、ニューラルオーディオコーデックの長い音響系列をモデル化する上で顕著な課題に直面している。本論文では、効率的な音声言語モデリングのために設計された階層的変換器である⾳声⾳声変換器(GPST)を紹介する。GPSTは、音声波形を2つの異なるタイプの離散的な音声表現に量子化し、階層的な変換器アーキテクチャに統合することで、統一された1段階の生成プロセスを可能にし、ハイレゾ音声生成能力を向上させます。大規模な音声コーパスを教師なしエンドツーエンドで学習することで、GPSTは多様な話者のアイデンティティを持つ、構文的に一貫性のある音声を生成することができます。3秒間の短いプロンプトを与えると、GPSTは自然で首尾一貫したパーソナライズされた音声を生成することができ、文脈内学習能力を実証しています。さらに、本アプローチは、多言語のセマンティック・トークンとユニバーサルな音響トークンを組み込むことで、容易にクロスリンガル音声生成に拡張することができます。実験の結果、GPSTは、単語誤り率、音声品質、話者の類似性において、既存の音声言語モデルを大幅に上回ることが示されました。このコードは ∮URL{https://github.com/youngsheen/GPST} にあります。
要約(オリジナル)
While recent advancements in speech language models have achieved significant progress, they face remarkable challenges in modeling the long acoustic sequences of neural audio codecs. In this paper, we introduce \textbf{G}enerative \textbf{P}re-trained \textbf{S}peech \textbf{T}ransformer (GPST), a hierarchical transformer designed for efficient speech language modeling. GPST quantizes audio waveforms into two distinct types of discrete speech representations and integrates them within a hierarchical transformer architecture, allowing for a unified one-stage generation process and enhancing Hi-Res audio generation capabilities. By training on large corpora of speeches in an end-to-end unsupervised manner, GPST can generate syntactically consistent speech with diverse speaker identities. Given a brief 3-second prompt, GPST can produce natural and coherent personalized speech, demonstrating in-context learning abilities. Moreover, our approach can be easily extended to spoken cross-lingual speech generation by incorporating multi-lingual semantic tokens and universal acoustic tokens. Experimental results indicate that GPST significantly outperforms the existing speech language models in terms of word error rate, speech quality, and speaker similarity. The code is available at \url{https://github.com/youngsheen/GPST}.
arxiv情報
著者 | Yongxin Zhu,Dan Su,Liqiang He,Linli Xu,Dong Yu |
発行日 | 2024-11-01 13:54:48+00:00 |
arxivサイト | arxiv_id(pdf) |