DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation

要約

直接音声ツー音声翻訳 (S2ST) は、単一のモデルを使用して音声をある言語から別の言語に翻訳します。
ただし、言語的および音響的多様性の存在により、ターゲット音声は複雑な多峰性分布に従い、S2ST モデルの高品質な翻訳と高速なデコード速度の両方を達成するのに課題が生じています。
本稿では、高速かつ高品質なS2STを実現する非自己回帰直接S2STモデルDASpeechを提案する。
ターゲット音声の複雑な分布をより適切に捕捉するために、DASpeech は 2 パス アーキテクチャを採用し、生成プロセスを 2 つのステップに分解します。最初に言語デコーダーがターゲット テキストを生成し、次に音響デコーダーが隠されたテキストに基づいてターゲット音声を生成します。
言語デコーダの状態。
具体的には、言語デコーダとして DA-Transformer のデコーダを使用し、音響デコーダとして FastSpeech 2 を使用します。
DA-Transformer は、有向非巡回グラフ (DAG) を使用して変換をモデル化します。
トレーニング中に DAG 内のすべての潜在的なパスを考慮するために、動的プログラミングによって各ターゲット トークンの予想される隠れ状態を計算し、それを音響デコーダーに入力してターゲットのメル スペクトログラムを予測します。
推論中に、最も可能性の高いパスを選択し、そのパス上の隠れた状態を音響デコーダへの入力として取得します。
CVSS Fr-En ベンチマークの実験では、DASpeech が自己回帰ベースラインと比較して最大 18.53 倍の高速化を維持しながら、最先端の S2ST モデル Translatotron 2 と同等またはそれ以上のパフォーマンスを達成できることが実証されました。
以前の非自己回帰 S2ST モデルと比較して、DASpeech は知識の蒸留と反復デコードに依存しないため、翻訳品質とデコード速度の両方で大幅な向上を実現します。
さらに、DASpeech は、翻訳中にソース音声の話者の音声を保存する機能を示します。

要約(オリジナル)

Direct speech-to-speech translation (S2ST) translates speech from one language into another using a single model. However, due to the presence of linguistic and acoustic diversity, the target speech follows a complex multimodal distribution, posing challenges to achieving both high-quality translations and fast decoding speeds for S2ST models. In this paper, we propose DASpeech, a non-autoregressive direct S2ST model which realizes both fast and high-quality S2ST. To better capture the complex distribution of the target speech, DASpeech adopts the two-pass architecture to decompose the generation process into two steps, where a linguistic decoder first generates the target text, and an acoustic decoder then generates the target speech based on the hidden states of the linguistic decoder. Specifically, we use the decoder of DA-Transformer as the linguistic decoder, and use FastSpeech 2 as the acoustic decoder. DA-Transformer models translations with a directed acyclic graph (DAG). To consider all potential paths in the DAG during training, we calculate the expected hidden states for each target token via dynamic programming, and feed them into the acoustic decoder to predict the target mel-spectrogram. During inference, we select the most probable path and take hidden states on that path as input to the acoustic decoder. Experiments on the CVSS Fr-En benchmark demonstrate that DASpeech can achieve comparable or even better performance than the state-of-the-art S2ST model Translatotron 2, while preserving up to 18.53x speedup compared to the autoregressive baseline. Compared with the previous non-autoregressive S2ST model, DASpeech does not rely on knowledge distillation and iterative decoding, achieving significant improvements in both translation quality and decoding speed. Furthermore, DASpeech shows the ability to preserve the speaker’s voice of the source speech during translation.

arxiv情報

著者 Qingkai Fang,Yan Zhou,Yang Feng
発行日 2023-10-11 11:39:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS, I.2.7 パーマリンク