HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech Translation

要約

HK-LegiCoST は、広東語と英語の翻訳の新しい 3 方向対訳コーパスであり、600 時間以上の広東語音声、その標準的な繁体字中国語転写、および文レベルでセグメント化され調整された英語翻訳が含まれています。
コーパスの準備における注目すべき課題、つまりセグメント化、長い音声録音の位置合わせ、および非逐語的トランスクリプトとの文レベルの位置合わせについて説明します。
このようなトランスクリプトにより、コーパスは、ソース言語の話し言葉と書き言葉に大きな違いがある場合の音声翻訳研究に適しています。
サイズが大きいため、HK-LegiCoST で競合する音声翻訳ベースラインを実証し、それを FLEURS 広東語サブセットでの有望なクロスコーパス結果に拡張することができます。
これらの結果は、現地の言語や方言の音声など、さまざまな要因により非逐語的または「ノイズの多い」転写が一般的である言語における音声認識と翻訳の研究に関する洞察を提供します。

要約(オリジナル)

We introduce HK-LegiCoST, a new three-way parallel corpus of Cantonese-English translations, containing 600+ hours of Cantonese audio, its standard traditional Chinese transcript, and English translation, segmented and aligned at the sentence level. We describe the notable challenges in corpus preparation: segmentation, alignment of long audio recordings, and sentence-level alignment with non-verbatim transcripts. Such transcripts make the corpus suitable for speech translation research when there are significant differences between the spoken and written forms of the source language. Due to its large size, we are able to demonstrate competitive speech translation baselines on HK-LegiCoST and extend them to promising cross-corpus results on the FLEURS Cantonese subset. These results deliver insights into speech recognition and translation research in languages for which non-verbatim or “noisy” transcription is common due to various factors, including vernacular and dialectal speech.

arxiv情報

著者 Cihan Xiao,Henry Li Xinyuan,Jinyi Yang,Dongji Gao,Matthew Wiesner,Kevin Duh,Sanjeev Khudanpur
発行日 2023-06-20 03:09:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク