Factorized RVQ-GAN For Disentangled Speech Tokenization

要約

単一のモデルでボトルネックを3つの言語レベルの音響、音声、および語彙型に考慮する統一された神経発話コーデックである階層オーディオコーデック(HAC)を提案します。
HACは、2つの知識蒸留の目的を活用します。1つは、音素レベルの構造用の事前に訓練された音声エンコーダー(Hubert)から、もう1つは語彙キュー用のテキストベースのエンコーダー(Labse)からです。
英語と多言語のデータに関する実験は、HACの因数分解ボトルネックが解き放たれたトークンセットを生成することを示しています:1つは音素と整列し、別のものは単語レベルのセマンティクスをキャプチャします。
定量的評価は、HACトークンが自然性を維持し、解釈可能な言語情報を提供し、解体と再構成の両方の品質の両方で単一レベルのベースラインを上回ることを確認します。
これらの発見は、HACの統一された個別の音声表現としての可能性を強調し、下流の音声生成と理解のための音響の詳細と語彙的意味を橋渡しします。

要約(オリジナル)

We propose Hierarchical Audio Codec (HAC), a unified neural speech codec that factorizes its bottleneck into three linguistic levels-acoustic, phonetic, and lexical-within a single model. HAC leverages two knowledge distillation objectives: one from a pre-trained speech encoder (HuBERT) for phoneme-level structure, and another from a text-based encoder (LaBSE) for lexical cues. Experiments on English and multilingual data show that HAC’s factorized bottleneck yields disentangled token sets: one aligns with phonemes, while another captures word-level semantics. Quantitative evaluations confirm that HAC tokens preserve naturalness and provide interpretable linguistic information, outperforming single-level baselines in both disentanglement and reconstruction quality. These findings underscore HAC’s potential as a unified discrete speech representation, bridging acoustic detail and lexical meaning for downstream speech generation and understanding tasks.

arxiv情報

著者 Sameer Khurana,Dominik Klement,Antoine Laurent,Dominik Bobos,Juraj Novosad,Peter Gazdik,Ellen Zhang,Zili Huang,Amir Hussein,Ricard Marxer,Yoshiki Masuyama,Ryo Aihara,Chiori Hori,Francois G. Germain,Gordon Wichern,Jonathan Le Roux
発行日 2025-06-18 13:36:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク