要約
多言語の音声からテキストへの翻訳に関する研究が話題になっています。
複数の翻訳タスクをサポートする単一のモデルがあることが望ましいです。
この取り組みの目標は、意味論的な知識の蒸留を通じて、多言語音声からテキストへの翻訳における言語間転移学習を改善することです。
マルチモーダル (音声テキスト) 意味論的知識の蒸留を使用してトレーニングされた多言語音声変換エンコーダーである SAMU-XLS-R を使用して、エンコーダー – デコーダーのシーケンスからシーケンスへの変換モデルのエンコーダーを初期化することで、大幅に優れた相互変換が達成されることを示します。
-ベースライン XLS-R よりも言語タスクの知識を伝達します。XLS-R は、自己教師あり学習によってトレーニングされた多言語音声変換エンコーダーです。
CoVoST-2 と Europarl という 2 つの人気のあるデータセットに対するアプローチの有効性を実証します。
CoVoST-2 ベンチマークの 21 の翻訳タスクでは、ベースラインと比較して平均 12.8 BLEU ポイントの改善を達成しました。
ゼロショット翻訳シナリオでは、未確認の中リソース言語および低リソース言語で平均 18.8 の BLEU ポイントと平均 11.9 の BLEU ポイントの向上を達成しました。
Europarl 音声翻訳ベンチマークでも同様の観察を行っています。
要約(オリジナル)
Research in multilingual speech-to-text translation is topical. Having a single model that supports multiple translation tasks is desirable. The goal of this work it to improve cross-lingual transfer learning in multilingual speech-to-text translation via semantic knowledge distillation. We show that by initializing the encoder of the encoder-decoder sequence-to-sequence translation model with SAMU-XLS-R, a multilingual speech transformer encoder trained using multi-modal (speech-text) semantic knowledge distillation, we achieve significantly better cross-lingual task knowledge transfer than the baseline XLS-R, a multilingual speech transformer encoder trained via self-supervised learning. We demonstrate the effectiveness of our approach on two popular datasets, namely, CoVoST-2 and Europarl. On the 21 translation tasks of the CoVoST-2 benchmark, we achieve an average improvement of 12.8 BLEU points over the baselines. In the zero-shot translation scenario, we achieve an average gain of 18.8 and 11.9 average BLEU points on unseen medium and low-resource languages. We make similar observations on Europarl speech translation benchmark.
arxiv情報
著者 | Sameer Khurana,Nauman Dawalatabad,Antoine Laurent,Luis Vicente,Pablo Gimeno,Victoria Mingote,James Glass |
発行日 | 2023-06-01 15:19:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google