Many-to-Many Spoken Language Translation via Unified Speech and Text Representation Learning with Unit-to-Unit Translation

要約

本稿では、特に音声合成の目的に着目し、多言語音声とテキストの統一的な表現を単一のモデルで学習する手法を提案する。本論文では、自己教師付き音声モデルから符号化された音声特徴の量子化表現である音声単位を用いて多言語音声を表現する。そのため、音声を擬似的なテキストとして扱うことで、その言語的内容に注目することができ、音声とテキストの統一的な表現を構築することができる。次に、Unit-to-Unit Translation (UTUT)を目的としたエンコーダ・デコーダ構造化モデルを多言語データに対して学習することを提案する。具体的には、エンコーダをソース言語トークンで条件付けし、デコーダをターゲット言語トークンで条件付けることで、多言語対多言語の翻訳設定において、話し言葉をターゲット言語のそれに翻訳するようにモデルを最適化する。したがって、このモデルは、話し言葉がどのように理解され、どのように異なる言語に関連付けられるかという知識を構築することができる。UTUTで事前に訓練された単一のモデルは、音声対音声翻訳(STS)、多言語音声合成(TTS)、テキスト対音声翻訳(TTST)など、多様な多言語音声・テキスト関連タスクに採用することができる。様々な言語を含む包括的な実験を行うことで、多様な多言語タスクにおける提案手法の有効性を検証する。さらに、UTUTが多対多言語STSを実行できることを示す。サンプルはhttps://choijeongsoo.github.io/utut。

要約(オリジナル)

In this paper, we propose a method to learn unified representations of multilingual speech and text with a single model, especially focusing on the purpose of speech synthesis. We represent multilingual speech audio with speech units, the quantized representations of speech features encoded from a self-supervised speech model. Therefore, we can focus on their linguistic content by treating the audio as pseudo text and can build a unified representation of speech and text. Then, we propose to train an encoder-decoder structured model with a Unit-to-Unit Translation (UTUT) objective on multilingual data. Specifically, by conditioning the encoder with the source language token and the decoder with the target language token, the model is optimized to translate the spoken language into that of the target language, in a many-to-many language translation setting. Therefore, the model can build the knowledge of how spoken languages are comprehended and how to relate them to different languages. A single pre-trained model with UTUT can be employed for diverse multilingual speech- and text-related tasks, such as Speech-to-Speech Translation (STS), multilingual Text-to-Speech Synthesis (TTS), and Text-to-Speech Translation (TTST). By conducting comprehensive experiments encompassing various languages, we validate the efficacy of the proposed method across diverse multilingual tasks. Moreover, we show UTUT can perform many-to-many language STS, which has not been previously explored in the literature. Samples are available on https://choijeongsoo.github.io/utut.

arxiv情報

著者 Minsu Kim,Jeongsoo Choi,Dahun Kim,Yong Man Ro
発行日 2023-08-03 15:47:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, eess.AS, eess.SP パーマリンク