SoundStorm: Efficient Parallel Audio Generation

要約

効率的で非自己回帰的なオーディオ生成モデルである SoundStorm を紹介します。
SoundStorm は、AudioLM のセマンティック トークンを入力として受け取り、双方向の注意と信頼度に基づく並列デコードに依存して、ニューラル オーディオ コーデックのトークンを生成します。
AudioLM の自己回帰生成アプローチと比較して、私たちのモデルは、2 桁高速でありながら、音声と音響条件の一貫性が高く、同じ品質のオーディオを生成します。
SoundStorm は、TPU-v4 上で 0.5 秒間に 30 秒のオーディオを生成します。
話者のターンと話者の声による短いプロンプトの注釈が付けられたトランスクリプトを前提として、高品質で自然な対話セグメントを合成することにより、オーディオ生成をより長いシーケンスに拡張するモデルの機能を実証します。

要約(オリジナル)

We present SoundStorm, a model for efficient, non-autoregressive audio generation. SoundStorm receives as input the semantic tokens of AudioLM, and relies on bidirectional attention and confidence-based parallel decoding to generate the tokens of a neural audio codec. Compared to the autoregressive generation approach of AudioLM, our model produces audio of the same quality and with higher consistency in voice and acoustic conditions, while being two orders of magnitude faster. SoundStorm generates 30 seconds of audio in 0.5 seconds on a TPU-v4. We demonstrate the ability of our model to scale audio generation to longer sequences by synthesizing high-quality, natural dialogue segments, given a transcript annotated with speaker turns and a short prompt with the speakers’ voices.

arxiv情報

著者 Zalán Borsos,Matt Sharifi,Damien Vincent,Eugene Kharitonov,Neil Zeghidour,Marco Tagliasacchi
発行日 2023-05-16 17:41:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク