要約
音節は、人間の音声の知覚と生成において重要な役割を果たす話し言葉の構成単位です。
ただし、現在のニューラル音声表現には構造が欠けており、その結果、処理コストのかかる高密度のトークン シーケンスが生成されます。
このギャップを埋めるために、クリーンで堅牢な音節構造を持つ音声表現を生成する新しいモデル Sylber を提案します。
具体的には、トレーニングにおけるモデルの指数移動平均である教師モデルから抽出された音節セグメントの特徴を回帰する自己教師ありモデルを提案します。
これにより、音声特徴の高度に構造化された表現が実現され、次の 3 つの重要な利点が得られます。1) 高速な線形時間音節セグメンテーション アルゴリズム、2) 1 秒あたり平均 4.27 トークンによる効率的な音節トークン化、3) より適切な音節単位
語彙的および構文的な理解。
また、音節単位を使用してトークンから音声への生成モデルをトレーニングし、完全に理解可能な音声をこれらのトークンから再構築できることを示します。
最後に、音声認識の言語現象であるカテゴリカル知覚がモデル内で自然に現れ、埋め込み空間が以前の自己教師あり学習アプローチよりもカテゴリカルかつスパースになっていることが観察されます。
私たちは一緒に、音声を音節として表現するための新しい自己教師ありアプローチを提案します。これは、効率的な音声トークン化と音声言語モデリングに大きな可能性をもたらします。
要約(オリジナル)
Syllables are compositional units of spoken language that play a crucial role in human speech perception and production. However, current neural speech representations lack structure, resulting in dense token sequences that are costly to process. To bridge this gap, we propose a new model, Sylber, that produces speech representations with clean and robust syllabic structure. Specifically, we propose a self-supervised model that regresses features on syllabic segments distilled from a teacher model which is an exponential moving average of the model in training. This results in a highly structured representation of speech features, offering three key benefits: 1) a fast, linear-time syllable segmentation algorithm, 2) efficient syllabic tokenization with an average of 4.27 tokens per second, and 3) syllabic units better suited for lexical and syntactic understanding. We also train token-to-speech generative models with our syllabic units and show that fully intelligible speech can be reconstructed from these tokens. Lastly, we observe that categorical perception, a linguistic phenomenon of speech perception, emerges naturally in our model, making the embedding space more categorical and sparse than previous self-supervised learning approaches. Together, we present a novel self-supervised approach for representing speech as syllables, with significant potential for efficient speech tokenization and spoken language modeling.
arxiv情報
| 著者 | Cheol Jun Cho,Nicholas Lee,Akshat Gupta,Dhruv Agarwal,Ethan Chen,Alan W Black,Gopala K. Anumanchipalli |
| 発行日 | 2024-10-09 17:59:04+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google