Pre-training for Speech Translation: CTC Meets Optimal Transport

要約

音声とテキストのモダリティ間のギャップは、音声からテキストへの翻訳 (ST) における大きな課題です。
このギャップを減らすためにさまざまな方法が提案されていますが、そのほとんどは ST トレーニングのアーキテクチャの変更を必要とします。
この研究では、ST モデルの変更を必要とせず、トレーニング前の段階でこの問題を軽減することを提案します。
まず、コネクショニスト時間分類 (CTC) 損失が設計によりモダリティ ギャップを削減できることを示します。
より一般的なクロスエントロピー損失との定量的な比較を提供し、CTC を使用した事前トレーニングが一貫して優れた最終 ST 精度を達成することを示しています。
それにもかかわらず、CTC は部分的な解決策にすぎないため、2 番目の寄稿では、このギャップをさらに削減するために CTC と最適なトランスポートを組み合わせた新しい事前トレーニング方法を提案します。
私たちの方法では、2 つのエンコーダーで構成されるシャムのようなモデルを事前トレーニングします。1 つは音響入力用、もう 1 つはテキスト入力用であり、Wasserstein 空間で互いに近い表現が生成されます。
標準的な CoVoST-2 および MuST-C データセットに対する広範な実験により、バニラのエンコーダー/デコーダー Transformer に適用された事前トレーニング手法が、外部データなしの設定で最先端のパフォーマンスを達成し、同等のパフォーマンスを発揮することが示されました。
外部データで訓練された最近の強力なマルチタスク学習システムを使用します。
最後に、私たちの方法はこれらのマルチタスク システムの上に適用することもでき、これらのモデルのさらなる改善につながります。
コードと事前トレーニングされたモデルは https://github.com/formiel/fairseq で入手できます。

要約(オリジナル)

The gap between speech and text modalities is a major challenge in speech-to-text translation (ST). Different methods have been proposed to reduce this gap, but most of them require architectural changes in ST training. In this work, we propose to mitigate this issue at the pre-training stage, requiring no change in the ST model. First, we show that the connectionist temporal classification (CTC) loss can reduce the modality gap by design. We provide a quantitative comparison with the more common cross-entropy loss, showing that pre-training with CTC consistently achieves better final ST accuracy. Nevertheless, CTC is only a partial solution and thus, in our second contribution, we propose a novel pre-training method combining CTC and optimal transport to further reduce this gap. Our method pre-trains a Siamese-like model composed of two encoders, one for acoustic inputs and the other for textual inputs, such that they produce representations that are close to each other in the Wasserstein space. Extensive experiments on the standard CoVoST-2 and MuST-C datasets show that our pre-training method applied to the vanilla encoder-decoder Transformer achieves state-of-the-art performance under the no-external-data setting, and performs on par with recent strong multi-task learning systems trained with external data. Finally, our method can also be applied on top of these multi-task systems, leading to further improvements for these models. Code and pre-trained models are available at https://github.com/formiel/fairseq.

arxiv情報

著者 Phuong-Hang Le,Hongyu Gong,Changhan Wang,Juan Pino,Benjamin Lecouteux,Didier Schwab
発行日 2023-06-05 11:44:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク