要約
エンドツーエンドの音声からテキストへの翻訳 (ST) の成功は、多くの場合、自動音声認識 (ASR) および機械翻訳 (MT) タスクによる事前トレーニング、または追加の導入など、ソース トランスクリプトを利用することによって達成されます。
ASR および MT データ。
残念なことに、世界中には数多くの書かれていない言語が存在するため、トランスクリプトは時々しか入手できません。
この論文では、ターゲット側の大量の単一言語データを利用して、トランスクリプトを使用せずに ST を強化することを目的としています。
MT における逆翻訳の目覚ましい成功に動機付けられ、単言語ターゲット データから擬似 ST データを合成するための ST (BT4ST) 用の逆翻訳アルゴリズムを開発します。
短対長の生成と 1 対多のマッピングによってもたらされる課題を軽減するために、自己監視型の離散単位を導入し、ターゲットから単位へのモデルと単位から音声へのモデルをカスケードすることによって逆変換を実現します。
合成 ST データを使用すると、MuST-C En-De、En-Fr、および En-Es データセットで平均 2.3 BLEU のブーストを達成します。
さらなる実験により、私たちの方法がリソースが少ないシナリオで特に効果的であることが示されています。
要約(オリジナル)
The success of end-to-end speech-to-text translation (ST) is often achieved by utilizing source transcripts, e.g., by pre-training with automatic speech recognition (ASR) and machine translation (MT) tasks, or by introducing additional ASR and MT data. Unfortunately, transcripts are only sometimes available since numerous unwritten languages exist worldwide. In this paper, we aim to utilize large amounts of target-side monolingual data to enhance ST without transcripts. Motivated by the remarkable success of back translation in MT, we develop a back translation algorithm for ST (BT4ST) to synthesize pseudo ST data from monolingual target data. To ease the challenges posed by short-to-long generation and one-to-many mapping, we introduce self-supervised discrete units and achieve back translation by cascading a target-to-unit model and a unit-to-speech model. With our synthetic ST data, we achieve an average boost of 2.3 BLEU on MuST-C En-De, En-Fr, and En-Es datasets. More experiments show that our method is especially effective in low-resource scenarios.
arxiv情報
著者 | Qingkai Fang,Yang Feng |
発行日 | 2023-05-15 15:12:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google