要約
この論文では、自動音声翻訳の下流アプリケーションにおいて、高リソース言語から低リソース言語への言語間の移行を強化するための、新しい 3 ステップの転移学習フレームワークを紹介します。
このアプローチは、意味論的な知識の蒸留ステップを、既存の 2 ステップの言語間転移学習フレームワーク XLS-R に統合します。
この追加のステップは、ラベルのない音声を使用した自己教師あり学習によって事前トレーニングされた多言語音声エンコーダーで意味知識をエンコードすることを目的としています。
私たちが提案する 3 ステップの言語間転移学習フレームワークは、XLS-R フレームワークで高リソース言語と低リソース言語の間に観察される大きな言語間転移ギャップ (TRFGap) に対処します。
CoVoST-2 ベンチマークでの広範な実験と比較を通じて提案を検証し、特に低リソース言語の翻訳パフォーマンスが大幅に向上し、TRFGap が顕著に減少したことを示しています。
要約(オリジナル)
The paper presents a novel three-step transfer learning framework for enhancing cross-lingual transfer from high- to low-resource languages in the downstream application of Automatic Speech Translation. The approach integrates a semantic knowledge-distillation step into the existing two-step cross-lingual transfer learning framework XLS-R. This extra step aims to encode semantic knowledge in the multilingual speech encoder pre-trained via Self-Supervised Learning using unlabeled speech. Our proposed three-step cross-lingual transfer learning framework addresses the large cross-lingual transfer gap (TRFGap) observed in the XLS-R framework between high-resource and low-resource languages. We validate our proposal through extensive experiments and comparisons on the CoVoST-2 benchmark, showing significant improvements in translation performance, especially for low-resource languages, and a notable reduction in the TRFGap.
arxiv情報
著者 | Sameer Khurana,Nauman Dawalatabad,Antoine Laurent,Luis Vicente,Pablo Gimeno,Victoria Mingote,Jonathan Le Roux,James Glass |
発行日 | 2023-12-28 11:42:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google