要約
この論文では、マスクされたオートエンコーダ、教師なし埋め込みマッピング、および逆翻訳を組み合わせることにより、単言語音声テキスト データセットから教師なし直接音声対音声翻訳を行う新しいアプローチである Translatotron 3 を紹介します。
スペイン語と英語の間の音声から音声への翻訳タスクの実験結果では、Translatotron 3 がベースライン カスケード システムを上回り、合成された不対会話データセットで $18.14$ BLEU ポイントの改善が報告されたことが示されています。
実際のペアデータや特殊なモデリングを必要とする教師ありアプローチとは対照的に、間、話す速度、話者の身元などの準言語情報や非言語情報を複製するための特殊なモデリングとは対照的に、Translatotron 3 は情報を保持する機能を示しています。
音声サンプルは http://google-research.github.io/lingvo-lab/translatotron3 でご覧いただけます。
要約(オリジナル)
This paper presents Translatotron 3, a novel approach to unsupervised direct speech-to-speech translation from monolingual speech-text datasets by combining masked autoencoder, unsupervised embedding mapping, and back-translation. Experimental results in speech-to-speech translation tasks between Spanish and English show that Translatotron 3 outperforms a baseline cascade system, reporting $18.14$ BLEU points improvement on the synthesized Unpaired-Conversational dataset. In contrast to supervised approaches that necessitate real paired data, or specialized modeling to replicate para-/non-linguistic information such as pauses, speaking rates, and speaker identity, Translatotron 3 showcases its capability to retain it. Audio samples can be found at http://google-research.github.io/lingvo-lab/translatotron3
arxiv情報
著者 | Eliya Nachmani,Alon Levkovitch,Yifan Ding,Chulayuth Asawaroengchai,Heiga Zen,Michelle Tadmor Ramanovich |
発行日 | 2024-01-16 08:27:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google