BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

要約

BASE TTS と呼ばれるテキスト読み上げ (TTS) モデルを導入します。これは $\textbf{B}$ig $\textbf{A}$daptive $\textbf{S}$treamable TTS with $\textbf{E の略です
}$マージェント能力。
BASE TTS は、これまでで最大の TTS モデルであり、10 万時間のパブリック ドメインの音声データでトレーニングされ、音声の自然さにおいて新たな最先端を実現しています。
これは、生のテキストを離散コード (「音声コード」) に変換する 10 億パラメータの自己回帰変換器を導入し、その後、これらの音声コードを増分的かつストリーミング可能な方法で波形に変換する畳み込みベースのデコーダを導入します。
さらに、当社の音声コードは、話者 ID のもつれ解除とバイトペア エンコーディングによる圧縮を特徴とする新しい音声トークン化技術を使用して構築されています。
増加するデータ量でトレーニングされた大規模言語モデルの「緊急能力」が広く報告されていることに倣い、10,000 時間以上と 5 億以上のパラメーターで構築された BASE TTS バリアントが、テキスト的に複雑な文で自然な韻律を示し始めることを示します。
私たちは、こうしたテキスト読み上げの新たな能力を測定するための特殊なデータセットを設計し、共有しています。
公開されている大規模なテキスト読み上げシステム (YourTTS、Bark、TortoiseTTS) を含むベースラインと比較して評価することで、BASE TTS の最先端の自然性を紹介します。
モデルによって生成された音声サンプルは、https://amazon-ltts-paper.com/ で聞くことができます。

要約(オリジナル)

We introduce a text-to-speech (TTS) model called BASE TTS, which stands for $\textbf{B}$ig $\textbf{A}$daptive $\textbf{S}$treamable TTS with $\textbf{E}$mergent abilities. BASE TTS is the largest TTS model to-date, trained on 100K hours of public domain speech data, achieving a new state-of-the-art in speech naturalness. It deploys a 1-billion-parameter autoregressive Transformer that converts raw texts into discrete codes (‘speechcodes’) followed by a convolution-based decoder which converts these speechcodes into waveforms in an incremental, streamable manner. Further, our speechcodes are built using a novel speech tokenization technique that features speaker ID disentanglement and compression with byte-pair encoding. Echoing the widely-reported ‘emergent abilities’ of large language models when trained on increasing volume of data, we show that BASE TTS variants built with 10K+ hours and 500M+ parameters begin to demonstrate natural prosody on textually complex sentences. We design and share a specialized dataset to measure these emergent abilities for text-to-speech. We showcase state-of-the-art naturalness of BASE TTS by evaluating against baselines that include publicly available large-scale text-to-speech systems: YourTTS, Bark and TortoiseTTS. Audio samples generated by the model can be heard at https://amazon-ltts-paper.com/.

arxiv情報

著者 Mateusz Łajszczak,Guillermo Cámbara,Yang Li,Fatih Beyhan,Arent van Korlaar,Fan Yang,Arnaud Joly,Álvaro Martín-Cortinas,Ammar Abbas,Adam Michalski,Alexis Moinet,Sri Karlapati,Ewa Muszyńska,Haohan Guo,Bartosz Putrycz,Soledad López Gambino,Kayeon Yoo,Elena Sokolova,Thomas Drugman
発行日 2024-02-15 18:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク