PolyVoice: Language Models for Speech to Speech Translation

要約

私たちは、言語モデルベースの音声翻訳 (S2ST) システムのフレームワークである PolyVoice を提案します。
私たちのフレームワークは、翻訳言語モデルと音声合成言語モデルの 2 つの言語モデルで構成されています。
私たちは完全に教師なしの方法で生成される離散化された音声単位を使用するため、私たちのフレームワークは書かれていない言語にも使用できます。
音声合成部分には既存のVALL-E Xアプローチを採用し、単位ベースの音声言語モデルを構築します。
これにより、フレームワークに元のスピーチの音声特性と話し方を保存する機能が与えられます。
中国語 $\rightarrow$ 英語と英語 $\rightarrow$ スペイン語のペアでシステムを調べます。
実験結果は、私たちのシステムが高い翻訳品質と音声品質の音声を生成できることを示しています。
音声サンプルは https://speechtranslation.github.io/polyvoice で入手できます。

要約(オリジナル)

We propose PolyVoice, a language model-based framework for speech-to-speech translation (S2ST) system. Our framework consists of two language models: a translation language model and a speech synthesis language model. We use discretized speech units, which are generated in a fully unsupervised way, and thus our framework can be used for unwritten languages. For the speech synthesis part, we adopt the existing VALL-E X approach and build a unit-based audio language model. This grants our framework the ability to preserve the voice characteristics and the speaking style of the original speech. We examine our system on Chinese $\rightarrow$ English and English $\rightarrow$ Spanish pairs. Experimental results show that our system can generate speech with high translation quality and audio quality. Speech samples are available at https://speechtranslation.github.io/polyvoice.

arxiv情報

著者 Qianqian Dong,Zhiying Huang,Qiao Tian,Chen Xu,Tom Ko,Yunlong Zhao,Siyuan Feng,Tang Li,Kexin Wang,Xuxin Cheng,Fengpeng Yue,Ye Bai,Xi Chen,Lu Lu,Zejun Ma,Yuping Wang,Mingxuan Wang,Yuxuan Wang
発行日 2023-06-13 15:15:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク