Unit-based Speech-to-Speech Translation Without Parallel Data

要約

我々は、ソース言語とターゲット言語間の並列データに依存しない教師なし音声対音声翻訳 (S2ST) システムを提案します。
私たちのアプローチは、ソース言語とターゲット言語の音声信号を自動的に検出された個別の単位にマッピングし、教師なしの単位間の機械翻訳として問題を再定式化します。
私たちは、(a) ユニットベースのエンコーダ/デコーダ言語モデルをノイズ除去目的で事前トレーニングする (b) 単言語テキストの埋め込みスペースを揃えることによって作成された、単語ごとに翻訳された発話ペアを使用してそれをトレーニングする、という 3 ステップのトレーニング手順を開発します。
(c) 初期翻訳モデルからブートストラップする教師なし逆変換を実行する。
私たちのアプローチでは、音声信号をテキストにマッピングすることを回避し、自動音声認識およびテキストから音声へのモデルの代わりに、音声からユニットへのモデルおよびユニットから音声へのモデルを使用します。
合成話者の Europarl-ST 英語-ドイツ語およびドイツ語-英語の評価セットでモデルを評価したところ、この制約のあるシナリオの下で単位ベースの翻訳が可能であることがわかり、ドイツ語から英語では 9.29 ASR-BLEU、英語からドイツ語では 8.07 の ASR-BLEU を達成しました。

要約(オリジナル)

We propose an unsupervised speech-to-speech translation (S2ST) system that does not rely on parallel data between the source and target languages. Our approach maps source and target language speech signals into automatically discovered, discrete units and reformulates the problem as unsupervised unit-to-unit machine translation. We develop a three-step training procedure that involves (a) pre-training an unit-based encoder-decoder language model with a denoising objective (b) training it with word-by-word translated utterance pairs created by aligning monolingual text embedding spaces and (c) running unsupervised backtranslation bootstrapping off of the initial translation model. Our approach avoids mapping the speech signal into text and uses speech-to-unit and unit-to-speech models instead of automatic speech recognition and text to speech models. We evaluate our model on synthetic-speaker Europarl-ST English-German and German-English evaluation sets, finding that unit-based translation is feasible under this constrained scenario, achieving 9.29 ASR-BLEU in German to English and 8.07 in English to German.

arxiv情報

著者 Anuj Diwan,Anirudh Srinivasan,David Harwath,Eunsol Choi
発行日 2023-05-24 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク