GigaST: A 10,000-hour Pseudo Speech Translation Corpus

要約

本稿では、大規模な擬似音声翻訳(ST)コーパスであるGigaSTを紹介します。
英語の ASR コーパスである GigaSpeech のテキストをドイツ語と中国語に翻訳してコーパスを作成します。
トレーニング セットは強力な機械翻訳システムによって翻訳され、テスト セットは人間によって翻訳されます。
当社のコーパスを追加してトレーニングされた ST モデルは、MuST-C 英語-ドイツ語ベンチマーク テスト セットで新しい最先端の結果を取得します。
翻訳プロセスの詳細な説明を提供し、その品質を検証します。
翻訳したテキストデータを公開し、音声翻訳の研究の促進につなげたいと考えています。
さらに、システムを簡単に複製できるように、NeurST 上でトレーニング スクリプトもリリースしています。
GigaST データセットは https://st-benchmark.github.io/resources/GigaST で入手できます。

要約(オリジナル)

This paper introduces GigaST, a large-scale pseudo speech translation (ST) corpus. We create the corpus by translating the text in GigaSpeech, an English ASR corpus, into German and Chinese. The training set is translated by a strong machine translation system and the test set is translated by human. ST models trained with an addition of our corpus obtain new state-of-the-art results on the MuST-C English-German benchmark test set. We provide a detailed description of the translation process and verify its quality. We make the translated text data public and hope to facilitate research in speech translation. Additionally, we also release the training scripts on NeurST to make it easy to replicate our systems. GigaST dataset is available at https://st-benchmark.github.io/resources/GigaST.

arxiv情報

著者 Rong Ye,Chengqi Zhao,Tom Ko,Chutong Meng,Tao Wang,Mingxuan Wang,Jun Cao
発行日 2023-06-06 12:48:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク