要約
大規模な言語モデルは、膨大なテキスト データに対する自己教師あり事前トレーニングを活用することで、自然言語処理に革命をもたらしました。
この成功に触発されて、研究者らは、言語モデリング技術を音声データに適用できるように、連続音声信号を離散化するための複雑な音声トークン化方法を研究してきました。
ただし、既存のアプローチでは、意味論的トークンをモデル化して音響情報を失う可能性があるか、音響トークンをモデル化して意味論的情報を失う危険性があります。
複数のトークン タイプがあるとアーキテクチャも複雑になり、追加の事前トレーニングが必要になります。
ここでは、メル フィルターバンク チャネルを離散強度ビンに離散化すると、他の既存の音声トークン化方法よりも優れたパフォーマンスを発揮する単純な表現 (dMel) が生成されることを示します。
音声テキストモデリングにトランスデコーダ専用アーキテクチャを使用して、音声認識 (ASR)、音声合成 (TTS) に関するさまざまな音声トークン化方法を包括的に評価します。
私たちの結果は、統合フレームワーク内で両方のタスクで高いパフォーマンスを達成する dMel の有効性を実証し、音声とテキストの効率的かつ効果的な共同モデリングへの道を切り開きます。
要約(オリジナル)
Large language models have revolutionized natural language processing by leveraging self-supervised pretraining on vast textual data. Inspired by this success, researchers have investigated complicated speech tokenization methods to discretize continuous speech signals so that language modeling techniques can be applied to speech data. However, existing approaches either model semantic tokens, potentially losing acoustic information, or model acoustic tokens, risking the loss of semantic information. Having multiple token types also complicates the architecture and requires additional pretraining. Here we show that discretizing mel-filterbank channels into discrete intensity bins produces a simple representation (dMel), that performs better than other existing speech tokenization methods. Using a transformer decoder-only architecture for speech-text modeling, we comprehensively evaluate different speech tokenization methods on speech recognition (ASR), speech synthesis (TTS). Our results demonstrate the effectiveness of dMel in achieving high performance on both tasks within a unified framework, paving the way for efficient and effective joint modeling of speech and text.
arxiv情報
著者 | He Bai,Tatiana Likhomanenko,Ruixiang Zhang,Zijin Gu,Zakaria Aldeneh,Navdeep Jaitly |
発行日 | 2024-07-22 17:51:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google