WACO: Word-Aligned Contrastive Learning for Speech Translation

要約

エンドツーエンド音声翻訳 (E2E ST) は、ソース音声をターゲット テキストに直接翻訳することを目的としています。
既存の ST メソッドは、トレーニングに使用できる音声テキスト データが非常に小さい場合、パフォーマンスが低下します。
ST モデルのパフォーマンスは、音声とソース トランスクリプト間の埋め込み類似性と密接に相関していることが観察されています。
この論文では、非常に低リソースの音声からテキストへの翻訳のためのシンプルかつ効果的な方法である Word-Aligned CONTRASTIVE 学習 (WACO) を提案します。
私たちの重要なアイデアは、対照学習を通じて音声とテキストの両方のモダリティの単語レベルの表現を橋渡しすることです。
私たちは、広く使用されている ST ベンチマークである MuST-C データセットと、IWSLT 2023 の低リソース方向のマルタ語 – 英語に基づいて、WACO およびその他の手法を評価します。私たちの実験では、WACO が、たった 1 つの BLEU ポイントで最良のベースラインを 9 以上上回るパフォーマンスを示しています。
-時間の並列STデータ。
コードは https://github.com/owaski/WACO で入手できます。

要約(オリジナル)

End-to-end Speech Translation (E2E ST) aims to directly translate source speech into target text. Existing ST methods perform poorly when only extremely small speech-text data are available for training. We observe that an ST model’s performance closely correlates with its embedding similarity between speech and source transcript. In this paper, we propose Word-Aligned COntrastive learning (WACO), a simple and effective method for extremely low-resource speech-to-text translation. Our key idea is bridging word-level representations for both speech and text modalities via contrastive learning. We evaluate WACO and other methods on the MuST-C dataset, a widely used ST benchmark, and on a low-resource direction Maltese-English from IWSLT 2023. Our experiments demonstrate that WACO outperforms the best baseline by 9+ BLEU points with only 1-hour parallel ST data. Code is available at https://github.com/owaski/WACO.

arxiv情報

著者 Siqi Ouyang,Rong Ye,Lei Li
発行日 2023-06-27 02:15:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク