Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments

要約

実際のアプリケーションでは、特に増分生成が必要なストリーミング シナリオでは、ユーザーは理解力を高めるために音声の翻訳と書き起こしの両方を必要とすることがよくあります。
この文書では、単一のデコーダを使用して自動音声認識 (ASR) 出力と音声翻訳 (ST) 出力を共同生成するストリーミング トランスフォーマ トランスデューサを紹介します。
最小限の遅延で ASR および ST コンテンツを効果的に生成するために、既製のテキスト アライナーを利用してソース単語とターゲット単語をインターリーブする、共同トークンレベルのシリアル化された出力トレーニング方法を提案します。
単言語 (it-en) および多言語 (\{de,es,it\}-en) 設定での実験により、私たちのアプローチが最高の品質と遅延のバランスを達成できることが実証されました。
平均 ASR レイテンシが 1 秒、ST レイテンシが 1.3 秒であるこのモデルでは、別個の ASR モデルと ST モデルと比較して出力品質の低下が見られず、さらには改善されており、多言語の場合では平均 1.1 WER と 0.4 BLEU の改善が得られました。

要約(オリジナル)

In real-world applications, users often require both translations and transcriptions of speech to enhance their comprehension, particularly in streaming scenarios where incremental generation is necessary. This paper introduces a streaming Transformer-Transducer that jointly generates automatic speech recognition (ASR) and speech translation (ST) outputs using a single decoder. To produce ASR and ST content effectively with minimal latency, we propose a joint token-level serialized output training method that interleaves source and target words by leveraging an off-the-shelf textual aligner. Experiments in monolingual (it-en) and multilingual (\{de,es,it\}-en) settings demonstrate that our approach achieves the best quality-latency balance. With an average ASR latency of 1s and ST latency of 1.3s, our model shows no degradation or even improves output quality compared to separate ASR and ST models, yielding an average improvement of 1.1 WER and 0.4 BLEU in the multilingual case.

arxiv情報

著者 Sara Papi,Peidong Wan,Junkun Chen,Jian Xue,Jinyu Li,Yashesh Gaur
発行日 2023-07-07 02:26:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク