Cross-Lingual Transfer Learning for Speech Translation

要約

NLPと音声研究の多言語基盤モデルの構築に関心が高まっています。
このペーパーでは、これらのモデルの音声翻訳能力を制限されたデータで拡張する方法を検討します。
スピーチ認識と英語翻訳で強力なパフォーマンスを備えた音声基盤モデルであるWhisperは、モデルの例として使用されます。
音声からスピーチの検索を使用して、エンコーダーによって生成されたオーディオ表現を分析すると、異なる言語からの発話が共有セマンティックスペースにマッピングされることを示します。
この共有された埋め込みスペースは、音声翻訳でゼロショットクロスリンガル転送のために活用できます。
英語から中国語の音声翻訳データのみを備えたウィスパーデコーダーを微調整することにより、英語に加えて、複数の言語で中国語への翻訳のパフォーマンスの向上を取得できます。
さらに、トレーニングで見られるものに関連する言語の場合、モデルがトレーニングで言語を見ないか、転写を実行できるにもかかわらず、音声翻訳を実行することが可能です。

要約(オリジナル)

There has been increasing interest in building multilingual foundation models for NLP and speech research. This paper examines how to expand the speech translation capability of these models with restricted data. Whisper, a speech foundation model with strong performance on speech recognition and English translation, is used as the example model. Using speech-to-speech retrieval to analyse the audio representations generated by the encoder, we show that utterances from different languages are mapped to a shared semantic space. This shared embedding space can then be leveraged for zero-shot cross-lingual transfer in speech translation. By fine-tuning the Whisper decoder with only English-to-Chinese speech translation data, improved performance for translation to Chinese can be obtained for multiple languages, in addition to English. Furthermore, for languages related to those seen in training it is possible to perform speech translation, despite the model never seeing the language in training, or being able to perform transcription.

arxiv情報

著者 Rao Ma,Mengjie Qian,Yassir Fathullah,Siyuan Tang,Mark Gales,Kate Knill
発行日 2025-02-11 18:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク