SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data

要約

音声とテキストは異なる特徴を持つ非常に異なるモダリティであるため、テキスト データを使用して音声の事前トレーニングを強化する方法は未解決の問題です。
この論文では、音声とテキストの事前トレーニングを事前定義された統合離散表現と明示的に調整するためのクロスモーダル音声言語モデル (SpeechLM) を提案します。
具体的には、音声とテキストのモダリティを橋渡しする 2 つの代替の離散トークナイザーを導入します。これには、少量の音声とテキストのペア データを使用してトレーニングできる、音素ユニット トークナイザーと隠れユニット トークナイザーが含まれます。
トレーニングされたトークナイザーに基づいて、ラベルのない音声データとテキスト データを音素単位または隠れ単位のトークンに変換します。
事前トレーニングの目標は、統合された Transformer ネットワークを使用して、音声とテキストを同じ離散意味空間に統合するように設計されています。
私たちは、音声認識、音声翻訳、ユニバーサル表現評価フレームワーク SUPERB などのさまざまな音声言語処理タスクで SpeechLM を評価し、コンテンツ関連タスクの大幅な改善を実証しました。
コードとモデルは https://aka.ms/SpeechLM で入手できます。

要約(オリジナル)

How to boost speech pre-training with textual data is an unsolved problem due to the fact that speech and text are very different modalities with distinct characteristics. In this paper, we propose a cross-modal Speech and Language Model (SpeechLM) to explicitly align speech and text pre-training with a pre-defined unified discrete representation. Specifically, we introduce two alternative discrete tokenizers to bridge the speech and text modalities, including phoneme-unit and hidden-unit tokenizers, which can be trained using a small amount of paired speech-text data. Based on the trained tokenizers, we convert the unlabeled speech and text data into tokens of phoneme units or hidden units. The pre-training objective is designed to unify the speech and the text into the same discrete semantic space with a unified Transformer network. We evaluate SpeechLM on various spoken language processing tasks including speech recognition, speech translation, and universal representation evaluation framework SUPERB, demonstrating significant improvements on content-related tasks. Code and models are available at https://aka.ms/SpeechLM.

arxiv情報

著者 Ziqiang Zhang,Sanyuan Chen,Long Zhou,Yu Wu,Shuo Ren,Shujie Liu,Zhuoyuan Yao,Xun Gong,Lirong Dai,Jinyu Li,Furu Wei
発行日 2023-06-15 14:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS パーマリンク