DiffS2UT: A Semantic Preserving Diffusion Model for Textless Direct Speech-to-Speech Translation

要約

拡散生成モデルは画像生成タスクでは大きな成功を収めていますが、拡散生成モデルを音声生成、特に翻訳タスクに効率的かつ効果的に組み込む方法は依然として重要な問題です。
具体的には、音声データの情報密度が低いため、変換された離散音声単位シーケンスは、対応するテキスト転写よりもはるかに長くなり、既存の自己回帰モデルに重大な課題をもたらします。
さらに、連続空間構造を無視して音声単位シーケンスに乱暴に離散拡散を適用することは最適ではなく、生成パフォーマンスが大幅に低下します。
本論文では、\textit{連続}音声表現空間では順拡散処理を適用し、\textit{離散}音声単位空間では逆方向拡散処理を適用することにより、新しい拡散モデルを提案する。
このようにして、拡散プロセスにおいて連続音声表現空間の意味構造を保存し、連続拡散モデルと離散拡散モデルを統合します。
我々は、テキストのない直接音声から音声への翻訳タスクについて広範な実験を行っており、提案された方法は、大幅に少ない復号ステップ (50 ステップ) で、計算集約的な自己回帰ベースライン (平均 500 ステップ) と同等の結果を達成します。

要約(オリジナル)

While Diffusion Generative Models have achieved great success on image generation tasks, how to efficiently and effectively incorporate them into speech generation especially translation tasks remains a non-trivial problem. Specifically, due to the low information density of speech data, the transformed discrete speech unit sequence is much longer than the corresponding text transcription, posing significant challenges to existing auto-regressive models. Furthermore, it is not optimal to brutally apply discrete diffusion on the speech unit sequence while disregarding the continuous space structure, which will degrade the generation performance significantly. In this paper, we propose a novel diffusion model by applying the diffusion forward process in the \textit{continuous} speech representation space, while employing the diffusion backward process in the \textit{discrete} speech unit space. In this way, we preserve the semantic structure of the continuous speech representation space in the diffusion process and integrate the continuous and discrete diffusion models. We conduct extensive experiments on the textless direct speech-to-speech translation task, where the proposed method achieves comparable results to the computationally intensive auto-regressive baselines (500 steps on average) with significantly fewer decoding steps (50 steps).

arxiv情報

著者 Yongxin Zhu,Zhujin Gao,Xinyuan Zhou,Zhongyi Ye,Linli Xu
発行日 2023-10-26 16:58:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク