Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard Parameter Sharing

要約

エンドツーエンドの音声テキスト翻訳 (ST) における最近の研究では、テキスト入力を最終的なクロスモーダル表現にマッピングする二次エンコーダを介して機械翻訳 (MT) データを活用する、ソフト パラメータ共有を備えたマルチタスク手法が提案されています。
この研究では、代わりに、すべてのモデル パラメーターがクロスモーダルに共有されるハード パラメーター共有を備えた ST/MT マルチタスク フレームワークを提案します。
私たちの方法では、音声とテキストの入力を同様の長さの 2 つの個別のトークン シーケンスに変換する前処理段階を通じて、音声とテキストのモダリティのギャップを削減します。これにより、モデルは単に共同語彙を使用して両方のモダリティを無差別に処理できるようになります。
MuST-C の実験により、私たちのマルチタスク フレームワークが、外部 MT データなしで、注意エンコーダ/デコーダ、コネクショニスト時間分類 (CTC)、トランスデューサ、および共同 CTC/注意モデルを平均 +0.5 BLEU 改善することを実証しました。
さらに、このフレームワークには外部 MT データが組み込まれており、+0.8 BLEU が得られ、事前トレーニングされたテキスト モデルからの転移学習も改善され、+1.8 BLEU が得られることを示します。

要約(オリジナル)

Recent works in end-to-end speech-to-text translation (ST) have proposed multi-tasking methods with soft parameter sharing which leverage machine translation (MT) data via secondary encoders that map text inputs to an eventual cross-modal representation. In this work, we instead propose a ST/MT multi-tasking framework with hard parameter sharing in which all model parameters are shared cross-modally. Our method reduces the speech-text modality gap via a pre-processing stage which converts speech and text inputs into two discrete token sequences of similar length — this allows models to indiscriminately process both modalities simply using a joint vocabulary. With experiments on MuST-C, we demonstrate that our multi-tasking framework improves attentional encoder-decoder, Connectionist Temporal Classification (CTC), transducer, and joint CTC/attention models by an average of +0.5 BLEU without any external MT data. Further, we show that this framework incorporates external MT data, yielding +0.8 BLEU, and also improves transfer learning from pre-trained textual models, yielding +1.8 BLEU.

arxiv情報

著者 Brian Yan,Xuankai Chang,Antonios Anastasopoulos,Yuya Fujita,Shinji Watanabe
発行日 2023-09-27 17:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク