DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models

要約

音声言語モデル (SLM) は、テキストベースのデコーダのみの言語モデルの進歩によりますます注目を集めています。
SLM はテキストと音声を処理し、音声の理解と生成を同時に行うことができます。
この論文では、オーディオ信号と SLM トークンをブリッジすることで音声トークン化を改善することを目的とした Double-Codebook Speaker-invariant Clustering (DC-Spin) について説明します。
DC-Spin は、音声情報が豊富で入力変動に強い話者不変トークンを抽出し、ゼロショット SLM タスクと音声再合成を強化します。
私たちは、再トレーニングや劣化なしにストリーミング可能な DC-Spin を可能にするチャンク単位のアプローチを提案します。
トークン化方法 (自己教師ありおよびニューラル オーディオ コーデック)、モデルのスケーラビリティ、およびダウンストリーム タスク プロキシの比較は、n グラム LM によって簡単にモデル化されるトークン、または音素と調整されたトークンが強力なパフォーマンスを提供し、SLM 用の音声トークナイザーを設計するための洞察を提供することを示しています。

要約(オリジナル)

Spoken language models (SLMs) have gained increasing attention with advancements in text-based, decoder-only language models. SLMs process text and speech, enabling simultaneous speech understanding and generation. This paper presents Double-Codebook Speaker-invariant Clustering (DC-Spin), which aims to improve speech tokenization by bridging audio signals and SLM tokens. DC-Spin extracts speaker-invariant tokens rich in phonetic information and resilient to input variations, enhancing zero-shot SLM tasks and speech resynthesis. We propose a chunk-wise approach to enable streamable DC-Spin without retraining and degradation. Comparisons of tokenization methods (self-supervised and neural audio codecs), model scalability, and downstream task proxies show that tokens easily modeled by an n-gram LM or aligned with phonemes offer strong performance, providing insights for designing speech tokenizers for SLMs.

arxiv情報

著者 Heng-Jui Chang,Hongyu Gong,Changhan Wang,James Glass,Yu-An Chung
発行日 2024-10-31 17:43:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク