NAVER LABS Europe’s Multilingual Speech Translation Systems for the IWSLT 2023 Low-Resource Track

要約

この文書では、IWSLT 2023 低リソース トラックにおけるタマシェク語 – フランス語およびケチュア語 – スペイン語の音声翻訳のための NAVER LABS Europe のシステムを紹介します。
私たちの取り組みでは、強力な事前トレーニング済みモデルを活用した多言語パラメータ効率の高いソリューションを使用して、リソースが少ない環境で翻訳品質を最大化することを試みています。
Tamasheq への最初の提出は、IWSLT 2022 テスト セットで以前の最先端技術を 7.5 BLEU ポイント上回り、今年のテスト セットでは 23.6 BLEU を達成し、2 番目に優れた参加者を 7.7 ポイント上回りました。
ケチュア語についても、翻訳データが 2 時間しかないにもかかわらず、1 位にランクされ、17.7 BLEU を達成しました。
最後に、私たちが提案する多言語アーキテクチャは高リソース言語に対しても競争力があり、使用するトレーニング データとコンピューティングがはるかに少ないにもかかわらず、IWSLT 2021 多言語トラックへの最高の制約なしの提出を上回るパフォーマンスを示します。

要約(オリジナル)

This paper presents NAVER LABS Europe’s systems for Tamasheq-French and Quechua-Spanish speech translation in the IWSLT 2023 Low-Resource track. Our work attempts to maximize translation quality in low-resource settings using multilingual parameter-efficient solutions that leverage strong pre-trained models. Our primary submission for Tamasheq outperforms the previous state of the art by 7.5 BLEU points on the IWSLT 2022 test set, and achieves 23.6 BLEU on this year’s test set, outperforming the second best participant by 7.7 points. For Quechua, we also rank first and achieve 17.7 BLEU, despite having only two hours of translation data. Finally, we show that our proposed multilingual architecture is also competitive for high-resource languages, outperforming the best unconstrained submission to the IWSLT 2021 Multilingual track, despite using much less training data and compute.

arxiv情報

著者 Edward Gow-Smith,Alexandre Berard,Marcely Zanon Boito,Ioan Calapodescu
発行日 2023-06-13 13:22:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク