Selective Data Augmentation for Robust Speech Translation

要約

タイトル: ロバストな音声翻訳のための選択的データ拡張
要約: 音声翻訳(ST)システムは、1つの言語の音声を別の言語のテキストに翻訳します。エンドツーエンドのSTシステム(e2e-ST)は、遅延と計算コストの削減による高度なパフォーマンスのために、カスケードシステムよりも人気があります。リソースが多く必要ですが、e2e-STシステムには、カスケードシステムとは異なり、音声のパラや非言語的な特徴を保持する固有の能力があります。本論文では、英語-ヒンディー語(en-hi)STのためにe2eアーキテクチャを使用することを提案しています。Libri-trans enテキストをhiテキストに翻訳するために、2つの不完全な機械翻訳(MT)サービスを使用します。それぞれのサービスがMTデータを個別に提供して、並列STデータを生成しますが、ノイズのあるMTデータのデータ拡張戦略を提案して、ロバストなSTを支援します。本論文の主な貢献は、データ拡張戦略の提案です。ブルートフォース拡張よりもより良いST(BLEUスコア)の結果が得られることを示します。私たちのアプローチで1.59のBLEUスコアの絶対改善を観測しました。
– 音声翻訳のためのe2eアーキテクチャを使用した。
– 2つの不完全な機械翻訳(MT)サービスを使用して、Libri-trans enテキストをhiテキストに翻訳する。
– ノイズのあるMTデータのデータ拡張戦略を提案し、ロバストなSTを支援する。
– ブルートフォース拡張よりも良いST(BLEUスコア)の結果が得られることを示した。
– 私たちのアプローチで1.59のBLEUスコアの絶対改善を観測した。

要約(オリジナル)

Speech translation (ST) systems translate speech in one language to text in another language. End-to-end ST systems (e2e-ST) have gained popularity over cascade systems because of their enhanced performance due to reduced latency and computational cost. Though resource intensive, e2e-ST systems have the inherent ability to retain para and non-linguistic characteristics of the speech unlike cascade systems. In this paper, we propose to use an e2e architecture for English-Hindi (en-hi) ST. We use two imperfect machine translation (MT) services to translate Libri-trans en text into hi text. While each service gives MT data individually to generate parallel ST data, we propose a data augmentation strategy of noisy MT data to aid robust ST. The main contribution of this paper is the proposal of a data augmentation strategy. We show that this results in better ST (BLEU score) compared to brute force augmentation of MT data. We observed an absolute improvement of 1.59 BLEU score with our approach.

arxiv情報

著者 Rajul Acharya,Ashish Panda,Sunil Kumar Kopparapu
発行日 2023-04-25 11:05:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク