SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations

要約

エンドツーエンドの音声翻訳は、利用可能なデータ リソースの不足によって妨げられます。
それらのほとんどは文書に基づいていますが、文レベルのバージョンも利用できますが、これは単一かつ静的なため、データの有用性が損なわれる可能性があります。
私たちは、データセットの複数の代替文レベルのバージョンを生成することでこの問題に対処する、新しいデータ拡張戦略である SegAugment を提案します。
私たちの方法では、オーディオセグメンテーションシステムを利用しています。これは、さまざまな長さの制約で各文書の音声を再セグメント化し、その後、アラインメントメソッドを介してターゲットテキストを取得します。
実験では、MuST-C の 8 つの言語ペアにわたって一貫した向上が実証され、平均 2.5 BLEU ポイントの増加、mTEDx の低リソース シナリオでは最大 5 BLEU の増加が見られました。
さらに、SegAugment を強力なシステムと組み合わせると、MuST-C で新しい最先端の結果が確立されます。
最後に、提案された方法が文レベルのデータセットをうまく拡張できること、および音声翻訳モデルが推論時に手動セグメンテーションと自動セグメンテーションの間のギャップを埋めることができることを示します。

要約(オリジナル)

End-to-end Speech Translation is hindered by a lack of available data resources. While most of them are based on documents, a sentence-level version is available, which is however single and static, potentially impeding the usefulness of the data. We propose a new data augmentation strategy, SegAugment, to address this issue by generating multiple alternative sentence-level versions of a dataset. Our method utilizes an Audio Segmentation system, which re-segments the speech of each document with different length constraints, after which we obtain the target text via alignment methods. Experiments demonstrate consistent gains across eight language pairs in MuST-C, with an average increase of 2.5 BLEU points, and up to 5 BLEU for low-resource scenarios in mTEDx. Furthermore, when combined with a strong system, SegAugment establishes new state-of-the-art results in MuST-C. Finally, we show that the proposed method can also successfully augment sentence-level datasets, and that it enables Speech Translation models to close the gap between the manual and automatic segmentation at inference time.

arxiv情報

著者 Ioannis Tsiamas,José A. R. Fonollosa,Marta R. Costa-jussà
発行日 2023-11-01 14:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク