SpiRit-LM: Interleaved Spoken and Written Language Model

要約

テキストと音声を自由に混合する基礎マルチモーダル言語モデルである SPIRIT-LM を紹介します。
私たちのモデルは、事前にトレーニングされたテキスト言語モデルに基づいており、テキストと音声単位で継続的にトレーニングすることにより、音声モダリティに拡張されます。
音声とテキストのシーケンスは 1 つのトークン セットとして連結され、自動的にキュレーションされた小規模な音声とテキストの並列コーパスを使用した単語レベルのインターリーブ手法でトレーニングされます。
SPIRIT-LMには、音声の意味単位を使用するBASEバージョンと、意味単位に加えてピッチとスタイル単位を使用して表現力をモデル化するEXPRESSIVEバージョンの2つのバージョンがあります。
どちらのバージョンでも、テキストはサブワード BPE トークンでエンコードされます。
結果として得られるモデルは、テキスト モデルの意味論的能力と音声モデルの表現能力の両方を表示します。
さらに、SPIRIT-LM がモダリティ (つまり、ASR、TTS、音声分類) を超えて数回のショットで新しいタスクを学習できることを実証します。

要約(オリジナル)

We introduce SPIRIT-LM, a foundation multimodal language model that freely mixes text and speech. Our model is based on a pretrained text language model that we extend to the speech modality by continuously training it on text and speech units. Speech and text sequences are concatenated as a single set of tokens, and trained with a word-level interleaving method using a small automatically-curated speech-text parallel corpus. SPIRIT-LM comes in two versions: a BASE version that uses speech semantic units and an EXPRESSIVE version that models expressivity using pitch and style units in addition to the semantic units. For both versions, the text is encoded with subword BPE tokens. The resulting model displays both the semantic abilities of text models and the expressive abilities of speech models. Additionally, we demonstrate that SPIRIT-LM is able to learn new tasks in a few-shot fashion across modalities (i.e. ASR, TTS, Speech Classification).

arxiv情報

著者 Tu Anh Nguyen,Benjamin Muller,Bokai Yu,Marta R. Costa-jussa,Maha Elbayad,Sravya Popuri,Paul-Ambroise Duquenne,Robin Algayres,Ruslan Mavlyutov,Itai Gat,Gabriel Synnaeve,Juan Pino,Benoit Sagot,Emmanuel Dupoux
発行日 2024-02-08 15:39:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク