要約
大規模な言語モデルの時代における音声と言語の融合は、大きな注目を集めています。
離散音声トークンは、音声圧縮と移植性を目的としてテキスト読み上げタスクでよく使用されます。これは、テキストとの共同トレーニングに便利で、圧縮効率が優れています。
しかし、離散音声トークナイザーでは依然として情報損失が発生していることがわかりました。
したがって、我々は、シンプルでありながら効果的な連続音声トークナイザーと、連続音声トークンに基づくテキスト読み上げモデルを提案します。
私たちの結果は、連続音声トークナイザーに基づく音声言語モデルの方が連続性が高く、平均オピニオン スコア (MoS) の推定値が高いことを示しています。
この機能強化は、周波数領域の低周波数と高周波数の両方にわたる連続音声トークナイザーの情報保存率の向上によるものです。
要約(オリジナル)
The fusion of speech and language in the era of large language models has garnered significant attention. Discrete speech token is often utilized in text-to-speech tasks for speech compression and portability, which is convenient for joint training with text and have good compression efficiency. However, we found that the discrete speech tokenizer still suffers from information loss. Therefore, we propose a simple yet effective continuous speech tokenizer and a text-to-speech model based on continuous speech tokens. Our results show that the speech language model based on the continuous speech tokenizer has better continuity and higher estimated Mean Opinion Scores (MoS). This enhancement is attributed to better information preservation rate of the continuous speech tokenizer across both low and high frequencies in the frequency domain.
arxiv情報
著者 | Yixing Li,Ruobing Xie,Xingwu Sun,Yu Cheng,Zhanhui Kang |
発行日 | 2024-10-22 15:02:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google