要約
テキスト処理における大規模な言語モデルの成功により、音声モデリングへの適応が影響を受けました。
ただし、音声は連続的かつ複雑であるため、自己回帰モデリングのために離散化されることがよくあります。
自己監視モデル(セマンティックトークンとして知られる)から派生した音声トークンは、通常、音声の言語的側面に焦点を当てていますが、韻律情報を無視します。
その結果、これらのトークンで訓練されたモデルは、自然性を低下させた音声を生成できます。
既存のアプローチは、セマンティックトークンにピッチ機能を追加することにより、これを修正しようとします。
ただし、ピッチだけでは、麻痺性属性の範囲を完全に表すことはできません。適切な機能を選択するには、慎重な手作業が必要です。
これを克服するために、セマンティックトークンを強化するためにこれらの連続音声属性をエンコードすることを自動的に学習するエンドツーエンドの変分アプローチを提案します。
私たちのアプローチは、手動抽出と麻痺性の特徴の選択の必要性を排除します。
さらに、人間の評価者に従って好ましい音声継続を生成します。
コード、サンプル、モデルはhttps://github.com/b04901014/vae-gslmで入手できます。
要約(オリジナル)
The success of large language models in text processing has inspired their adaptation to speech modeling. However, since speech is continuous and complex, it is often discretized for autoregressive modeling. Speech tokens derived from self-supervised models (known as semantic tokens) typically focus on the linguistic aspects of speech but neglect prosodic information. As a result, models trained on these tokens can generate speech with reduced naturalness. Existing approaches try to fix this by adding pitch features to the semantic tokens. However, pitch alone cannot fully represent the range of paralinguistic attributes, and selecting the right features requires careful hand-engineering. To overcome this, we propose an end-to-end variational approach that automatically learns to encode these continuous speech attributes to enhance the semantic tokens. Our approach eliminates the need for manual extraction and selection of paralinguistic features. Moreover, it produces preferred speech continuations according to human raters. Code, samples and models are available at https://github.com/b04901014/vae-gslm.
arxiv情報
著者 | Li-Wei Chen,Takuya Higuchi,Zakaria Aldeneh,Ahmed Hussen Abdelaziz,Alexander Rudnicky |
発行日 | 2025-06-17 17:58:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google