Scaling Speech-Text Pre-training with Synthetic Interleaved Data

要約

音声言語モデル (SpeechLM) は、音声入力を受け入れて音声出力を生成するため、テキストベースの大規模言語モデル (LLM) と比較して、より自然な人間とコンピューターの対話が可能になります。
SpeechLM を開発するための従来のアプローチは、教師なし音声データと並列音声テキスト データの利用可能性が限られているという制約があります。これらのデータは、テキストの事前トレーニング データよりもはるかに豊富ではないため、LLM としてのスケーラビリティが制限されます。
我々は、テキストコーパスから派生した大規模な合成インターリーブデータを活用することで、音声テキストの事前トレーニングをスケーリングする新しいアプローチを提案し、並列音声テキストデータセットの必要性を排除します。
私たちの方法は、既存のテキストコーパスからテキストスパンをサンプリングし、テキストからトークンへのモデルを使用して対応する音声スパンを合成することにより、実際の音声を生成する必要性を回避し、音声とテキストがインターリーブされたデータを効率的に構築します。
また、ベクトル量子化ボトルネックをエンコーダに組み込むことにより、自動音声認識 (ASR) モデルから派生した教師付き音声トークナイザーも採用しています。
この教師ありトレーニング アプローチにより、音声再構成の品質を維持しながら、低いフレーム レート (例: 12.5Hz) でも強力な意味が保存された個別の音声トークンが得られます。
事前トレーニング済みの言語モデルから開始し、事前トレーニングを 1 兆トークン (600B の合成インターリーブ音声テキスト データを使用) まで拡張することで、音声言語モデリングと口頭質問応答で最先端のパフォーマンスを実現し、パフォーマンスを向上させます。
音声質問タスクでは、以前の SOTA の 13% (Moshi) から 31% に増加しました。
さらに、音声対話データを使用して事前トレーニングされたモデルを微調整することで、会話能力と音声品質の両方で既存のベースラインに匹敵するパフォーマンスを達成する、エンドツーエンドの音声チャットボットを開発できることを実証します。
音声ドメイン。

要約(オリジナル)

Speech language models (SpeechLMs) accept speech input and produce speech output, allowing for more natural human-computer interaction compared to text-based large language models (LLMs). Traditional approaches for developing SpeechLMs are constrained by the limited availability of unsupervised speech data and parallel speech-text data, which are significantly less abundant than text pre-training data, thereby limiting their scalability as LLMs. We propose a novel approach to scaling speech-text pre-training by leveraging large-scale synthetic interleaved data derived from text corpora, eliminating the need for parallel speech-text datasets. Our method efficiently constructs speech-text interleaved data by sampling text spans from existing text corpora and synthesizing corresponding speech spans using a text-to-token model, bypassing the need to generate actual speech. We also employ a supervised speech tokenizer derived from an automatic speech recognition (ASR) model by incorporating a vector-quantized bottleneck into the encoder. This supervised training approach results in discrete speech tokens with strong semantic preservation even at lower frame rates (e.g. 12.5Hz), while still maintaining speech reconstruction quality. Starting from a pre-trained language model and scaling our pre-training to 1 trillion tokens (with 600B synthetic interleaved speech-text data), we achieve state-of-the-art performance in speech language modeling and spoken question answering, improving performance on spoken questions tasks from the previous SOTA of 13% (Moshi) to 31%. We further demonstrate that by fine-tuning the pre-trained model with speech dialogue data, we can develop an end-to-end spoken chatbot that achieves competitive performance comparable to existing baselines in both conversational abilities and speech quality, even operating exclusively in the speech domain.

arxiv情報

著者 Aohan Zeng,Zhengxiao Du,Mingdao Liu,Lei Zhang,Shengmin Jiang,Yuxiao Dong,Jie Tang
発行日 2024-12-02 16:13:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク