CTC-based Non-autoregressive Textless Speech-to-Speech Translation

要約

直接音声間翻訳 (S2ST) は優れた翻訳品質を実現していますが、音声シーケンスがかなり長いため、デコードが遅いという課題に直面することがよくあります。
最近、一部の研究ではデコードを迅速化するために非自己回帰 (NAR) モデルに注目していますが、翻訳の品質は通常、自己回帰 (AR) モデルに比べて大幅に遅れています。
このペーパーでは、これらのモデルが機械翻訳で優れた結果を示しているため、S2ST における CTC ベースの NAR モデルのパフォーマンスを調査します。
実験結果は、事前トレーニング、知識蒸留、およびグランシング トレーニングや非単調潜在アライメントなどの高度な NAR トレーニング技術を組み合わせることで、CTC ベースの NAR モデルが最大 26.81$\times$ のコストを維持しながら、AR モデルと同等の翻訳品質を達成できることを示しています。
デコードの高速化。

要約(オリジナル)

Direct speech-to-speech translation (S2ST) has achieved impressive translation quality, but it often faces the challenge of slow decoding due to the considerable length of speech sequences. Recently, some research has turned to non-autoregressive (NAR) models to expedite decoding, yet the translation quality typically lags behind autoregressive (AR) models significantly. In this paper, we investigate the performance of CTC-based NAR models in S2ST, as these models have shown impressive results in machine translation. Experimental results demonstrate that by combining pretraining, knowledge distillation, and advanced NAR training techniques such as glancing training and non-monotonic latent alignments, CTC-based NAR models achieve translation quality comparable to the AR model, while preserving up to 26.81$\times$ decoding speedup.

arxiv情報

著者 Qingkai Fang,Zhengrui Ma,Yan Zhou,Min Zhang,Yang Feng
発行日 2024-06-11 15:00:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS, I.2.7 パーマリンク