要約
言語モデルは、画像、ビデオ、音声、オーディオなどの自然信号のモデル化に効果的に適用されています。
これらのモデルの重要なコンポーネントは、高次元の自然信号を低次元の離散トークンに圧縮するコーデック トークナイザーです。
このペーパーでは、オーディオ ドメインにおける以前の SOTA 音響コーデック モデルに比べていくつかの利点を提供する WavTokenizer を紹介します。1) 極端な圧縮。
量子化器の層と離散コーデックの時間次元を圧縮することにより、24kHz サンプリング レートの 1 秒オーディオに必要なのは、40 または 75 トークンを持つ 1 つの量子化器だけです。
2)主観的な品質が向上しました。
トークンの数が減ったにもかかわらず、WavTokenizer は優れた UTMOS スコアで最先端の再構成品質を達成し、本質的により豊富なセマンティック情報を含みます。
具体的には、より広い VQ 空間、拡張されたコンテキスト ウィンドウ、改善されたアテンション ネットワークを設計するとともに、強力なマルチスケール弁別器と逆フーリエ変換構造を導入することによって、これらの結果を達成します。
私たちは音声、オーディオ、音楽の領域で大規模な再構成実験を実施しました。
WavTokenizer は、最先端のモデルと比較して、さまざまな客観的および主観的な指標にわたって優れたパフォーマンスを示しました。
また、意味情報、VQ の利用、生成モデルへの適応性もテストしました。
包括的なアブレーション研究により、WavTokenizer の各モジュールの必要性が確認されています。
関連するコード、デモ、および事前トレーニングされたモデルは、https://github.com/jishengpeng/WavTokenizer で入手できます。
要約(オリジナル)
Language models have been effectively applied to modeling natural signals, such as images, video, speech, and audio. A crucial component of these models is the codec tokenizer, which compresses high-dimensional natural signals into lower-dimensional discrete tokens. In this paper, we introduce WavTokenizer, which offers several advantages over previous SOTA acoustic codec models in the audio domain: 1)extreme compression. By compressing the layers of quantizers and the temporal dimension of the discrete codec, one-second audio of 24kHz sampling rate requires only a single quantizer with 40 or 75 tokens. 2)improved subjective quality. Despite the reduced number of tokens, WavTokenizer achieves state-of-the-art reconstruction quality with outstanding UTMOS scores and inherently contains richer semantic information. Specifically, we achieve these results by designing a broader VQ space, extended contextual windows, and improved attention networks, as well as introducing a powerful multi-scale discriminator and an inverse Fourier transform structure. We conducted extensive reconstruction experiments in the domains of speech, audio, and music. WavTokenizer exhibited strong performance across various objective and subjective metrics compared to state-of-the-art models. We also tested semantic information, VQ utilization, and adaptability to generative models. Comprehensive ablation studies confirm the necessity of each module in WavTokenizer. The related code, demos, and pre-trained models are available at https://github.com/jishengpeng/WavTokenizer.
arxiv情報
著者 | Shengpeng Ji,Ziyue Jiang,Wen Wang,Yifu Chen,Minghui Fang,Jialong Zuo,Qian Yang,Xize Cheng,Zehan Wang,Ruiqi Li,Ziang Zhang,Xiaoda Yang,Rongjie Huang,Yidi Jiang,Qian Chen,Siqi Zheng,Wen Wang,Zhou Zhao |
発行日 | 2024-10-22 14:40:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google