An Empirical Study of Consistency Regularization for End-to-End Speech-to-Text Translation

要約

R-Drop (Liang et al., 2021) や CrossConST (Gao et al., 2023) などの一貫性正則化手法は、ニューラル機械翻訳 (NMT) 分野で優れた教師ありゼロショット パフォーマンスを達成しました。
一貫性の正則化を活用することで、エンドツーエンド (E2E) の音声からテキストへの翻訳 (ST) を強化することもできますか?
この論文では、モーダル内およびモーダル間の一貫性に関する実証研究を実施し、通常シナリオとゼロショット シナリオにおける E2E ST の 2 つのトレーニング戦略 SimRegCR と SimZeroCR を提案します。
MuST-C ベンチマークの実験では、私たちのアプローチがほとんどの翻訳方向で最先端 (SOTA) のパフォーマンスを達成していることが示されています。
分析は、モダリティギャップではなく、モーダル内の一貫性によってもたらされる正則化が通常の E2E ST にとって重要であり、クロスモーダル一貫性がモダリティギャップを埋めてゼロショット E2E ST のパフォーマンスを向上させる可能性があることを証明しています。

要約(オリジナル)

Consistency regularization methods, such as R-Drop (Liang et al., 2021) and CrossConST (Gao et al., 2023), have achieved impressive supervised and zero-shot performance in the neural machine translation (NMT) field. Can we also boost end-to-end (E2E) speech-to-text translation (ST) by leveraging consistency regularization? In this paper, we conduct empirical studies on intra-modal and cross-modal consistency and propose two training strategies, SimRegCR and SimZeroCR, for E2E ST in regular and zero-shot scenarios. Experiments on the MuST-C benchmark show that our approaches achieve state-of-the-art (SOTA) performance in most translation directions. The analyses prove that regularization brought by the intra-modal consistency, instead of modality gap, is crucial for the regular E2E ST, and the cross-modal consistency could close the modality gap and boost the zero-shot E2E ST performance.

arxiv情報

著者 Pengzhi Gao,Ruiqing Zhang,Zhongjun He,Hua Wu,Haifeng Wang
発行日 2023-08-28 10:44:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク