Continuous Speech Tokenizer in Text To Speech

要約

大規模な言語モデルの時代における言語と言語の融合は、大きな注目を集めています。
個別の音声トークンは、多くの場合、テキストとの共同トレーニングに便利で、優れた圧縮効率を持つ音声圧縮と移植性のためのテキストからスピーチのタスクで利用されます。
しかし、個別の音声トークネイザーは依然として情報の損失に苦しんでいることがわかりました。
したがって、Cont-SPTという名前のシンプルで効果的な連続音声トークネイザーと、連続した音声トークンに基づくテキストからスピーチモデルを提案します。
我々の結果は、連続音声トークネイザーに基づく音声言語モデルは、より良い連続性と推定平均意見スコア(MO)が高いことを示しています。
この強化は、周波数領域内の低周波数と高周波数の両方にわたる連続音声トークネイザーの情報保存率の向上に起因します。
cont-sptのコードとリソースは、https://github.com/yixing-li/continuous-sepeech-tokenizerにあります

要約(オリジナル)

The fusion of speech and language in the era of large language models has garnered significant attention. Discrete speech token is often utilized in text-to-speech tasks for speech compression and portability, which is convenient for joint training with text and have good compression efficiency. However, we found that the discrete speech tokenizer still suffers from information loss. Therefore, we propose a simple yet effective continuous speech tokenizer named Cont-SPT, and a text-to-speech model based on continuous speech tokens. Our results show that the speech language model based on the continuous speech tokenizer has better continuity and higher estimated Mean Opinion Scores (MoS). This enhancement is attributed to better information preservation rate of the continuous speech tokenizer across both low and high frequencies in the frequency domain. The code and resources for Cont-SPT can be found in https://github.com/Yixing-Li/Continuous-Speech-Tokenizer

arxiv情報

著者 Yixing Li,Ruobing Xie,Xingwu Sun,Yu Cheng,Zhanhui Kang
発行日 2025-03-31 13:57:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク