要約
いくつかの最近の研究では、拡散モデルと自己回帰モデルを組み合わせることにより、個別の音声トークンなしで連続音声表現を自動網羅して生成しようとしましたが、多くの場合、過度の計算負荷または最適ではない結果で課題に直面しています。
この作業では、言語モデルと拡散トランスを組み合わせたパッチベースの自己回帰フレームワークである拡散変圧器の自己回帰モデリング(DITAR)を提案します。
このアプローチは、連続トークンに対する自己回帰モデルの有効性を大幅に向上させ、計算需要を削減します。
DITARは、パッチ生成に分割統合戦略を利用しています。言語モデルが集約されたパッチ埋め込みを処理し、その後、言語モデルの出力に基づいて次のパッチを生成します。
推論のために、多様性と決定論のバランスをとるために、逆拡散オード中にノイズを導入する時点として温度を定義することを提案します。
また、広範なスケーリング分析では、Ditarが優れたスケーラビリティを持っていることを示しています。
ゼロショットの音声生成では、Ditarは堅牢性、スピーカーの類似性、および自然さで最先端のパフォーマンスを達成します。
要約(オリジナル)
Several recent studies have attempted to autoregressively generate continuous speech representations without discrete speech tokens by combining diffusion and autoregressive models, yet they often face challenges with excessive computational loads or suboptimal outcomes. In this work, we propose Diffusion Transformer Autoregressive Modeling (DiTAR), a patch-based autoregressive framework combining a language model with a diffusion transformer. This approach significantly enhances the efficacy of autoregressive models for continuous tokens and reduces computational demands. DiTAR utilizes a divide-and-conquer strategy for patch generation, where the language model processes aggregated patch embeddings and the diffusion transformer subsequently generates the next patch based on the output of the language model. For inference, we propose defining temperature as the time point of introducing noise during the reverse diffusion ODE to balance diversity and determinism. We also show in the extensive scaling analysis that DiTAR has superb scalability. In zero-shot speech generation, DiTAR achieves state-of-the-art performance in robustness, speaker similarity, and naturalness.
arxiv情報
著者 | Dongya Jia,Zhuo Chen,Jiawei Chen,Chenpeng Du,Jian Wu,Jian Cong,Xiaobin Zhuang,Chumin Li,Zhen Wei,Yuping Wang,Yuxuan Wang |
発行日 | 2025-02-14 09:49:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google