要約
大規模な言語モデルは、膨大なテキストデータに自己監視された事前供与を活用することにより、自然言語処理に革命をもたらしました。
この成功に触発されて、研究者は、連続音声信号を離散化するためのさまざまな圧縮ベースの音声トークン化方法を調査し、言語モデリング手法の個別のトークンへの適用を可能にしました。
ただし、オーディオコンプレッサーは追加の複雑さと計算コストを導入し、多くの場合、ドメイン外のオーディオ信号で失敗します。
この作業では、メルフィルターバンクチャネルを強度ビンに離散化する新しい音声表現(DMEL)を導入し、既存の音声トークン化方法と比較して、よりシンプルなさらに効果的な表現を作成します。
私たちのアプローチは、オーディオコンテンツの保存における優れたパフォーマンス、ドメイン外データへの堅牢性を示し、トレーニングのない自然でストリーミング可能な表現を提供します。
LOG-MELスペクトログラムの高次元性に対処するために、LMスタイルの変圧器アーキテクチャを使用した高次元トークンの効率的な並列エンコードおよびデコード方法を提案します。
このイノベーションにより、RichttsとRichasrを開発することができます。これは、同じアーキテクチャを共有しながら、特殊な既存の方法よりも同等またはより良い結果を達成しながら、同じアーキテクチャを共有しています。
我々の結果は、統一されたフレームワーク内の音声統合と認識タスクの両方で高性能を達成する際のDMELの有効性を示し、音声とテキストの効率的かつ効果的な共同モデリングのための道を開いています。
要約(オリジナル)
Large language models have revolutionized natural language processing by leveraging self-supervised pretraining on vast textual data. Inspired by this success, researchers have investigated various compression-based speech tokenization methods to discretize continuous speech signals, enabling the application of language modeling techniques to discrete tokens. However, audio compressor introduces additional complexity and computational cost, and often fail on out-of-domain audio signals. In this work, we introduce a novel speech representation (dmel) that discretizes mel-filterbank channels into intensity bins, creating a simpler yet more effective representation compared to existing speech tokenization methods. Our approach demonstrates superior performance in preserving audio content, robustness to out-of-domain data, and offers a training-free, natural, and streamable representation. To address the high-dimensional nature of log-mel spectrograms, we propose an efficient parallel encoding and decoding method for high-dimensional tokens using an LM-style transformer architecture. This innovation enables us to develop RichTTS and RichASR, two models sharing the same architecture while achieving comparable or better results than specialized existing methods. Our results demonstrate the effectiveness of dmel in achieving high performance on both speech synthesis and recognition tasks within a unified framework, paving the way for efficient and effective joint modeling of speech and text.
arxiv情報
著者 | Richard He Bai,Tatiana Likhomanenko,Ruixiang Zhang,Zijin Gu,Zakaria Aldeneh,Navdeep Jaitly |
発行日 | 2025-05-21 16:55:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google