要約
音声言語モデル (SLM) は、テキストベースのデコーダのみの言語モデルの進歩によりますます注目を集めています。
SLM はテキストと音声を処理し、音声の理解と生成を同時に行うことができます。
この論文では、オーディオ信号と SLM トークンをブリッジすることで音声トークン化を改善することを目的とした Double-Codebook Speaker-invariant Clustering (DC-Spin) について説明します。
DC-Spin は、音声情報が豊富で入力変動に強い話者不変トークンを抽出し、ゼロショット SLM タスクと音声再合成を強化します。
私たちは、再トレーニングや劣化なしにストリーミング可能な DC-Spin を可能にするチャンク単位のアプローチを提案します。
トークン化方法 (自己教師ありおよびニューラル オーディオ コーデック)、モデルのスケーラビリティ、およびダウンストリーム タスク プロキシの比較は、n グラム LM によって簡単にモデル化されるトークン、または音素と調整されたトークンが強力なパフォーマンスを提供し、SLM 用の音声トークナイザーを設計するための洞察を提供することを示しています。
要約(オリジナル)
Spoken language models (SLMs) have gained increasing attention with advancements in text-based, decoder-only language models. SLMs process text and speech, enabling simultaneous speech understanding and generation. This paper presents Double-Codebook Speaker-invariant Clustering (DC-Spin), which aims to improve speech tokenization by bridging audio signals and SLM tokens. DC-Spin extracts speaker-invariant tokens rich in phonetic information and resilient to input variations, enhancing zero-shot SLM tasks and speech resynthesis. We propose a chunk-wise approach to enable streamable DC-Spin without retraining and degradation. Comparisons of tokenization methods (self-supervised and neural audio codecs), model scalability, and downstream task proxies show that tokens easily modeled by an n-gram LM or aligned with phonemes offer strong performance, providing insights for designing speech tokenizers for SLMs.
arxiv情報
著者 | Heng-Jui Chang,Hongyu Gong,Changhan Wang,James Glass,Yu-An Chung |
発行日 | 2024-10-31 17:43:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google