Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard Parameter Sharing

要約

エンドツーエンドの音声テキスト翻訳 (ST) における最近の研究では、テキスト入力を最終的なクロスモーダル表現にマッピングする二次エンコーダを介して機械翻訳 (MT) データを活用する、ソフトパラメータ共有を備えたマルチタスク手法が提案されています。
この研究では、代わりに、すべてのモデルパラメーターがクロスモーダルに共有されるハードパラメーター共有を備えた ST/MT マルチタスクフレームワークを提案します。
私たちの方法では、音声とテキストの入力を同様の長さの 2 つの個別のトークンシーケンスに変換する前処理段階を通じて、音声とテキストのモダリティのギャップを削減します。これにより、モデルは単に共同語彙を使用して両方のモダリティを無差別に処理できるようになります。
MuST-C の実験により、私たちのマルチタスクフレームワークが、外部 MT データなしで、注意エンコーダ/デコーダ、コネクショニスト時間分類 (CTC)、トランスデューサ、および共同 CTC/注意モデルを平均 +0.5 BLEU 改善することを実証しました。
さらに、このフレームワークには外部 MT データが組み込まれており、+0.8 BLEU が得られ、事前トレーニングされたテキストモデルからの転移学習も改善され、+1.8 BLEU が得られることを示します。

要約(オリジナル)

Recent works in end-to-end speech-to-text translation (ST) have proposed multi-tasking methods with soft parameter sharing which leverage machine translation (MT) data via secondary encoders that map text inputs to an eventual cross-modal representation. In this work, we instead propose a ST/MT multi-tasking framework with hard parameter sharing in which all model parameters are shared cross-modally. Our method reduces the speech-text modality gap via a pre-processing stage which converts speech and text inputs into two discrete token sequences of similar length — this allows models to indiscriminately process both modalities simply using a joint vocabulary. With experiments on MuST-C, we demonstrate that our multi-tasking framework improves attentional encoder-decoder, Connectionist Temporal Classification (CTC), transducer, and joint CTC/attention models by an average of +0.5 BLEU without any external MT data. Further, we show that this framework incorporates external MT data, yielding +0.8 BLEU, and also improves transfer learning from pre-trained textual models, yielding +1.8 BLEU.

arxiv情報

著者	Brian Yan,Xuankai Chang,Antonios Anastasopoulos,Yuya Fujita,Shinji Watanabe
発行日	2023-09-27 17:48:14+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard Parameter Sharing

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー