TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation

要約

個別のユニットを使用した音声から音声への直接翻訳 (S2ST) は、音声表現学習における最近の進歩を活用しています。
具体的には、自己管理された方法で導出された離散表現のシーケンスがモデルから予測され、音声再構成のためにボコーダに渡されますが、依然として次の課題に直面しています: 1) 音響マルチモダリティ: 同じ内容の音声から導出された離散単位
音響特性 (リズム、ピッチ、エネルギーなど) が原因で不確定になり、翻訳精度が低下します。
2) 高いレイテンシ: 現在の S2ST システムは、以前に生成されたシーケンスに基づいて各ユニットを予測する自己回帰モデルを利用しており、並列処理を十分に活用できていません。
この作業では、双方向の摂動を伴う音声から音声への翻訳モデルである TranSpeech を提案します。
音響マルチモーダル問題を軽減するために、スタイルの正規化と情報強化の段階で構成されるバイラテラル摂動 (BiP) を提案し、音声サンプルから言語情報のみを学習し、より決定論的な表現を生成します。
マルチモダリティが減少したことで、私たちは前進し、ユニットの選択を繰り返しマスクして予測し、わずか数サイクルで高精度の結果を生成する非自己回帰 S2ST 手法を確立する最初の人になりました。
3 つの言語ペアでの実験結果は、ベースラインのテキストレス S2ST モデルと比較して、BiP が平均で 2.9 BLEU の改善をもたらすことを示しています。
さらに、私たちの並列デコードは、推論レイテンシの大幅な削減を示し、自己回帰手法よりも最大 21.4 倍高速化できます。
オーディオ サンプルは、\url{https://TranSpeech.github.io/} で入手できます。

要約(オリジナル)

Direct speech-to-speech translation (S2ST) with discrete units leverages recent progress in speech representation learning. Specifically, a sequence of discrete representations derived in a self-supervised manner are predicted from the model and passed to a vocoder for speech reconstruction, while still facing the following challenges: 1) Acoustic multimodality: the discrete units derived from speech with same content could be indeterministic due to the acoustic property (e.g., rhythm, pitch, and energy), which causes deterioration of translation accuracy; 2) high latency: current S2ST systems utilize autoregressive models which predict each unit conditioned on the sequence previously generated, failing to take full advantage of parallelism. In this work, we propose TranSpeech, a speech-to-speech translation model with bilateral perturbation. To alleviate the acoustic multimodal problem, we propose bilateral perturbation (BiP), which consists of the style normalization and information enhancement stages, to learn only the linguistic information from speech samples and generate more deterministic representations. With reduced multimodality, we step forward and become the first to establish a non-autoregressive S2ST technique, which repeatedly masks and predicts unit choices and produces high-accuracy results in just a few cycles. Experimental results on three language pairs demonstrate that BiP yields an improvement of 2.9 BLEU on average compared with a baseline textless S2ST model. Moreover, our parallel decoding shows a significant reduction of inference latency, enabling speedup up to 21.4x than autoregressive technique. Audio samples are available at \url{https://TranSpeech.github.io/}

arxiv情報

著者 Rongjie Huang,Jinglin Liu,Huadai Liu,Yi Ren,Lichao Zhang,Jinzheng He,Zhou Zhao
発行日 2023-03-02 09:17:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク