LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec

要約

個別の音声トークンは、言語モデルベースの音声生成に強い可能性を示していますが、その高いビットレートと冗長な音色情報がそのようなモデルの開発を制限します。
この作業では、LSCODECを提案します。LSCODECは、ビットレートとスピーカー分離能力の両方が低い離散音声コーデックです。
LSCODECは、スピーカーの摂動手法を使用して、マルチステージの監視されていないトレーニングフレームワークを採用しています。
継続的な情報ボトルネックが最初に確立され、その後、離散スピーカーが分割された空間を生成するベクトル量子化が続きます。
離散トークンボコーダーは、最終的にLSCODECのアコースティックの詳細を改良します。
再構築評価により、LSCODECは、ベースラインよりも単一のコードブックと語彙サイズが小さく、優れた明瞭度とオーディオ品質を実証します。
音声変換とスピーカーの調査実験は、LSCODECの優れたスピーカーの解体を証明し、アブレーション研究は提案されたトレーニングフレームワークの有効性を検証します。

要約(オリジナル)

Although discrete speech tokens have exhibited strong potential for language model-based speech generation, their high bitrates and redundant timbre information restrict the development of such models. In this work, we propose LSCodec, a discrete speech codec that has both low bitrate and speaker decoupling ability. LSCodec adopts a multi-stage unsupervised training framework with a speaker perturbation technique. A continuous information bottleneck is first established, followed by vector quantization that produces a discrete speaker-decoupled space. A discrete token vocoder finally refines acoustic details from LSCodec. By reconstruction evaluations, LSCodec demonstrates superior intelligibility and audio quality with only a single codebook and smaller vocabulary size than baselines. Voice conversion and speaker probing experiments prove the excellent speaker disentanglement of LSCodec, and ablation study verifies the effectiveness of the proposed training framework.

arxiv情報

著者 Yiwei Guo,Zhihan Li,Chenpeng Du,Hankun Wang,Xie Chen,Kai Yu
発行日 2025-05-21 16:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS パーマリンク