SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data

要約

タイトル:未ペアのテキストデータを用いた音声事前学習の改良(SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data)

要約:

– 音声とテキストは異なるモダリティであり、異なる特性を持つため、テキストデータを使用した音声事前学習の強化は解決が難しい課題である。
– この論文では、共通の離散表現を定義することで、音声とテキストの事前学習を明示的に整合するクロスモーダルなSpeech and Language Model(SpeechLM)を提案した。
– 音声とテキストモダリティをつなぐための2つの代替ディスクリートトークナイザ(音素単位と隠れ単位トークナイザ)を導入し、ペア音声テキストデータを使用してトレーニングすることができる。
– トレーニングされたトークナイザを使用して、非ラベルの音声とテキストデータを音素単位または隠れ単位のトークンに変換する。
– 事前学習の目的は、統一されたTransformerネットワークにより、音声とテキストを同じ離散的な意味空間に統一することである。
– たった10,000テキストセンテンスしか使用しないが、公開されたLibriSpeech ASRベンチマークで、最良の基本モデルのパフォーマンスよりも相対的な音声認識エラー率が16%低下した(6.8から5.7)。
– さらに、より少ないパラメータを持つSpeechLMは、CoVoST-2音声翻訳タスクにおいて、以前のSOTAモデルを上回った。
– 基本的なタスクにおいて著しい改善が見られた、さまざまな話し言葉処理タスクでSpeechLMをSUPERBという普遍的表現評価フレームワークに基づいて評価した。
– コードとモデルはhttps://aka.ms/SpeechLMで公開されている。

要約(オリジナル)

How to boost speech pre-training with textual data is an unsolved problem due to the fact that speech and text are very different modalities with distinct characteristics. In this paper, we propose a cross-modal Speech and Language Model (SpeechLM) to explicitly align speech and text pre-training with a pre-defined unified discrete representation. Specifically, we introduce two alternative discrete tokenizers to bridge the speech and text modalities, including phoneme-unit and hidden-unit tokenizers, which can be trained using a small amount of paired speech-text data. Based on the trained tokenizers, we convert the unlabeled speech and text data into tokens of phoneme units or hidden units. The pre-training objective is designed to unify the speech and the text into the same discrete semantic space with a unified Transformer network. Leveraging only 10K text sentences, our SpeechLM gets a 16\% relative WER reduction over the best base model performance (from 6.8 to 5.7) on the public LibriSpeech ASR benchmark. Moreover, SpeechLM with fewer parameters even outperforms previous SOTA models on CoVoST-2 speech translation tasks. We also evaluate our SpeechLM on various spoken language processing tasks under the universal representation evaluation framework SUPERB, demonstrating significant improvements on content-related tasks. Our code and models are available at https://aka.ms/SpeechLM.

arxiv情報

著者 Ziqiang Zhang,Sanyuan Chen,Long Zhou,Yu Wu,Shuo Ren,Shujie Liu,Zhuoyuan Yao,Xun Gong,Lirong Dai,Jinyu Li,Furu Wei
発行日 2023-04-28 02:28:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, eess.AS パーマリンク