CMU’s IWSLT 2024 Simultaneous Speech Translation System

要約

このペーパーでは、英語の音声をストリーミング方式でドイツ語のテキストに翻訳するための IWSLT 2024 同時音声翻訳 (SST) タスクへの CMU の提出について説明します。
当社のエンドツーエンドの音声テキスト変換 (ST) システムには、WavLM 音声エンコーダ、モダリティ アダプタ、およびデコーダとしての Llama2-7B-Base モデルが統合されています。
私たちは 2 段階のトレーニング アプローチを採用しています。最初に音声とテキストの表現を調整し、次に完全な微調整を行います。
どちらのステージも、クロスエントロピー損失のある MuST-c v2 データでトレーニングされます。
単純な固定ホールド n ポリシーを使用して、オフライン ST モデルを SST に適応させます。
実験の結果、このモデルは、MuST-C-v2 tst-COMMON で 2 秒の遅延でオフライン BLEU スコア 31.1 と BLEU スコア 29.5 を取得したことが示されています。

要約(オリジナル)

This paper describes CMU’s submission to the IWSLT 2024 Simultaneous Speech Translation (SST) task for translating English speech to German text in a streaming manner. Our end-to-end speech-to-text (ST) system integrates the WavLM speech encoder, a modality adapter, and the Llama2-7B-Base model as the decoder. We employ a two-stage training approach: initially, we align the representations of speech and text, followed by full fine-tuning. Both stages are trained on MuST-c v2 data with cross-entropy loss. We adapt our offline ST model for SST using a simple fixed hold-n policy. Experiments show that our model obtains an offline BLEU score of 31.1 and a BLEU score of 29.5 under 2 seconds latency on the MuST-C-v2 tst-COMMON.

arxiv情報

著者 Xi Xu,Siqi Ouyang,Brian Yan,Patrick Fernandes,William Chen,Lei Li,Graham Neubig,Shinji Watanabe
発行日 2024-08-14 10:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク