CTC-GMM: CTC guided modality matching for fast and accurate streaming speech translation

要約

ストリーミング音声翻訳 (ST) のモデルは、ソース言語の音声とターゲット言語の書かれたテキストのペアを大量に使用して開発された場合、高精度と低遅延を実現できます。
しかし、ターゲット言語のこれらのテキスト ラベルは、手動の ST データ ラベル付けに法外なコストがかかるため、多くの場合、擬似ラベルになります。
この論文では、広範な機械翻訳 (MT) テキスト データを活用してストリーミング ST モデルを強化する、Connectionist Temporal Classics ガイド付きモダリティ マッチング (CTC-GMM) という方法論を紹介します。
この技術では、CTC を使用して音声シーケンスを、対応するテキスト シーケンスと一致するコンパクトな埋め込みシーケンスに圧縮します。これにより、MT コーパスから一致した {source-target} 言語テキストのペアを利用して、ストリーミング ST モデルをさらに改良できるようになります。
FLEURS と CoVoST2 を使用した評価では、CTC-GMM アプローチにより、翻訳精度がそれぞれ 13.9% と 6.4% 相対的に向上し、同時に GPU でのデコード速度が 59.7% 向上することがわかりました。

要約(オリジナル)

Models for streaming speech translation (ST) can achieve high accuracy and low latency if they’re developed with vast amounts of paired audio in the source language and written text in the target language. Yet, these text labels for the target language are often pseudo labels due to the prohibitive cost of manual ST data labeling. In this paper, we introduce a methodology named Connectionist Temporal Classification guided modality matching (CTC-GMM) that enhances the streaming ST model by leveraging extensive machine translation (MT) text data. This technique employs CTC to compress the speech sequence into a compact embedding sequence that matches the corresponding text sequence, allowing us to utilize matched {source-target} language text pairs from the MT corpora to refine the streaming ST model further. Our evaluations with FLEURS and CoVoST2 show that the CTC-GMM approach can increase translation accuracy relatively by 13.9% and 6.4% respectively, while also boosting decoding speed by 59.7% on GPU.

arxiv情報

著者 Rui Zhao,Jinyu Li,Ruchao Fan,Matt Post
発行日 2024-10-07 15:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS パーマリンク