LMs with a Voice: Spoken Language Modeling beyond Speech Tokens

要約

我々は、事前に訓練された言語モデル (LM) を適応させて音声継続を実行する新しいアプローチである SPECTRON を紹介します。
事前トレーニングされた音声エンコーダーを活用することで、私たちのモデルはテキストと音声の両方の出力を生成し、システム全体がスペクトログラム上で直接動作するエンドツーエンドでトレーニングされます。
スペクトログラム ドメインでモデル全体をトレーニングすると、離散音声表現を使用する既存のカスケード手法と比較して、音声継続システムが簡素化されます。
さらに、私たちの方法が意味論的な内容と話者の保存の両方において既存の音声言語モデルを上回っていると同時に、既存のモデルから移された知識の恩恵も受けていることを示します。
音声サンプルは、当社の Web サイト https://michelleramanovich.github.io/spectron/spectron でご覧いただけます。

要約(オリジナル)

We present SPECTRON, a novel approach to adapting pre-trained language models (LMs) to perform speech continuation. By leveraging pre-trained speech encoders, our model generates both text and speech outputs with the entire system being trained end-to-end operating directly on spectrograms. Training the entire model in the spectrogram domain simplifies our speech continuation system versus existing cascade methods which use discrete speech representations. We further show our method surpasses existing spoken language models both in semantic content and speaker preservation while also benefiting from the knowledge transferred from pre-existing models. Audio samples can be found in our website https://michelleramanovich.github.io/spectron/spectron

arxiv情報

著者 Eliya Nachmani,Alon Levkovitch,Julian Salazar,Chulayutsh Asawaroengchai,Soroosh Mariooryad,RJ Skerry-Ryan,Michelle Tadmor Ramanovich
発行日 2023-05-24 15:39:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク