Enhancing Speech-to-Speech Translation with Multiple TTS Targets




– 直接音声-音声翻訳(S2ST)モデルは、ソースとターゲット音声の限られた並列マテリアルのためにデータ不足の問題に直面することが知られている。
– 従って、S2STシステムをトレーニングするために、以前の研究では通常、音声-テキスト翻訳(S2TT)からのデータを拡張するために、テキスト-音声翻訳(TTS)システムを使用して、ターゲット言語のサンプルを生成することが行われてきた。
– しかし、合成されたターゲット音声がS2STモデルにどのような影響を与えるかについては、限られた調査しか行われていない。
– この研究では、直接S2STモデルに対する合成されたターゲット音声の変更の効果を分析した。
– 結果として、異なるTTSシステムからのターゲット音声を単純に組み合わせることで、S2STパフォーマンスが改善される可能性があることがわかった。
– この後、我々は、異なるTTSシステムからの複数のターゲットとともにS2STシステムを共同最適化する多タスクフレームワークを提案する。
– 多数の実験により、我々の提案フレームワークがFisher Spanish-Englishデータセットにおいてベースラインよりも一貫した改善(2.8 BLEU)を達成することが示された。


It has been known that direct speech-to-speech translation (S2ST) models usually suffer from the data scarcity issue because of the limited existing parallel materials for both source and target speech. Therefore to train a direct S2ST system, previous works usually utilize text-to-speech (TTS) systems to generate samples in the target language by augmenting the data from speech-to-text translation (S2TT). However, there is a limited investigation into how the synthesized target speech would affect the S2ST models. In this work, we analyze the effect of changing synthesized target speech for direct S2ST models. We find that simply combining the target speech from different TTS systems can potentially improve the S2ST performances. Following that, we also propose a multi-task framework that jointly optimizes the S2ST system with multiple targets from different TTS systems. Extensive experiments demonstrate that our proposed framework achieves consistent improvements (2.8 BLEU) over the baselines on the Fisher Spanish-English dataset.


著者 Jiatong Shi,Yun Tang,Ann Lee,Hirofumi Inaguma,Changhan Wang,Juan Pino,Shinji Watanabe
発行日 2023-04-10 14:33:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク