Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation

要約

DiffuseST は、複数のソース言語から英語に翻訳しながら、入力話者の音声をゼロショットで保存できる、低遅延の直接音声ツー音声翻訳システムです。
私たちはアーキテクチャのシンセサイザー コンポーネントを実験し、Tacotron ベースのシンセサイザーと新しい拡散ベースのシンセサイザーを比較します。
拡散ベースのシンセサイザーは、同等の BLEU スコアを維持しながら、MOS と PESQ のオーディオ品質メトリクスをそれぞれ 23% 改善し、スピーカーの類似性を 5% 改善することがわかりました。
パラメータ数が 2 倍以上であるにもかかわらず、拡散シンセサイザーのレイテンシは低く、モデル全体をリアルタイムよりも 5$\times$ 以上高速に実行できます。

要約(オリジナル)

We introduce DiffuseST, a low-latency, direct speech-to-speech translation system capable of preserving the input speaker’s voice zero-shot while translating from multiple source languages into English. We experiment with the synthesizer component of the architecture, comparing a Tacotron-based synthesizer to a novel diffusion-based synthesizer. We find the diffusion-based synthesizer to improve MOS and PESQ audio quality metrics by 23\% each and speaker similarity by 5\% while maintaining comparable BLEU scores. Despite having more than double the parameter count, the diffusion synthesizer has lower latency, allowing the entire model to run more than 5$\times$ faster than real-time.

arxiv情報

著者 Nameer Hirschkind,Xiao Yu,Mahesh Kumar Nandwana,Joseph Liu,Eloi DuBois,Dao Le,Nicolas Thiebaut,Colin Sinclair,Kyle Spence,Charles Shang,Zoe Abrams,Morgan McGuire
発行日 2024-06-14 17:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク