要約
並列オーディオ生成のための高速かつ高品質のコーデック言語モデルを紹介します。
最先端の並列オーディオ生成モデルである SoundStorm は、自己回帰モデルと比較して推論速度を高速化しますが、反復サンプリングによる推論の遅さには依然として悩まされています。
この問題を解決するために、効率的な並列オーディオ生成のためのグループマスク言語モデリング~(G-MLM)とグループ反復並列デコーディング~(G-IPD)を提案します。
トレーニング スキームとサンプリング スキームの両方により、モデルはグループごとの条件付き依存関係を効果的にモデル化することで、少ない反復回数で高品質のオーディオを合成できます。
さらに、私たちのモデルはクロスアテンションベースのアーキテクチャを採用して、プロンプト音声の話者のスタイルを捕捉し、計算効率を向上させます。
実験結果は、私たちが提案したモデルがプロンプトベースのオーディオ生成のベースラインよりも優れていることを示しています。
要約(オリジナル)
We present a fast and high-quality codec language model for parallel audio generation. While SoundStorm, a state-of-the-art parallel audio generation model, accelerates inference speed compared to autoregressive models, it still suffers from slow inference due to iterative sampling. To resolve this problem, we propose Group-Masked Language Modeling~(G-MLM) and Group Iterative Parallel Decoding~(G-IPD) for efficient parallel audio generation. Both the training and sampling schemes enable the model to synthesize high-quality audio with a small number of iterations by effectively modeling the group-wise conditional dependencies. In addition, our model employs a cross-attention-based architecture to capture the speaker style of the prompt voice and improves computational efficiency. Experimental results demonstrate that our proposed model outperforms the baselines in prompt-based audio generation.
arxiv情報
著者 | Myeonghun Jeong,Minchan Kim,Joun Yeop Lee,Nam Soo Kim |
発行日 | 2024-01-02 08:42:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google