Bridging the Gaps of Both Modality and Language: Synchronous Bilingual CTC for Speech Translation and Speech Recognition

要約

この研究では、音声翻訳 (ST) タスクにおけるモダリティと言語の両方のギャップを埋めるためにデュアル CTC を活用する革新的なフレームワークである同期バイリンガル コネクショニスト時間分類 (CTC) を紹介します。
CTC の同時目標としてトランスクリプトと翻訳を利用する当社のモデルは、音声とテキストの間、およびソース言語とターゲット言語の間のギャップを橋渡しします。
CTC アプリケーションの最近の進歩に基づいて、リソースに制約のあるシナリオの下で MuST-C ST ベンチマークで新しい最先端のパフォーマンスを確立する、強化されたバリアントである BiL-CTC+ を開発します。
興味深いことに、私たちの方法は音声認識パフォーマンスにも大幅な改善をもたらし、書き起こしに対する異言語学習の効果を明らかにし、その幅広い適用可能性を示しています。
ソース コードは https://github.com/xuchennlp/S2T で入手できます。

要約(オリジナル)

In this study, we present synchronous bilingual Connectionist Temporal Classification (CTC), an innovative framework that leverages dual CTC to bridge the gaps of both modality and language in the speech translation (ST) task. Utilizing transcript and translation as concurrent objectives for CTC, our model bridges the gap between audio and text as well as between source and target languages. Building upon the recent advances in CTC application, we develop an enhanced variant, BiL-CTC+, that establishes new state-of-the-art performances on the MuST-C ST benchmarks under resource-constrained scenarios. Intriguingly, our method also yields significant improvements in speech recognition performance, revealing the effect of cross-lingual learning on transcription and demonstrating its broad applicability. The source code is available at https://github.com/xuchennlp/S2T.

arxiv情報

著者 Chen Xu,Xiaoqian Liu,Erfeng He,Yuhao Zhang,Qianqian Dong,Tong Xiao,Jingbo Zhu,Dapeng Man,Wu Yang
発行日 2023-09-21 16:28:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク