要約
タイトル:$\mathcal{E}$ KÚ [MASK]: Yorùbá文化の挨拶を機械翻訳に統合する
要約:
– この論文は、大量の多言語ニューラル機械翻訳(NMT)システムが、Yor\`ub\’a文化の一大部分であるYorùbá挨拶($\mathcal{E}$ k\’u [MASK])を英語に正確に翻訳できるかどうかを調査するものである。
– 著者らは、Yor\`ub\’a-英語翻訳データセットであるIkiniYor\`ub\’aを提供し、その中にYor\`ub\’a挨拶の一部が含まれている。また、それに基づく使用例も示される。
– GoogleやNLLBなどのさまざまな多言語NMTシステムの性能を分析した結果、これらのモデルはYorùbá挨拶を正確に英語に翻訳することが困難であることが明らかになった。
– さらに、既存のNMTモデルをIkiniYor\`ub\’aのトレーニングスプリットでチューニングしてYor\`ub\’a-英語モデルを学習させた結果、多量のデータでトレーニングされた事前学習済みの多言語NMTモデルよりも優れた性能を発揮した。
要約(オリジナル)
This paper investigates the performance of massively multilingual neural machine translation (NMT) systems in translating Yor\`ub\’a greetings ($\mathcal{E}$ k\’u [MASK]), which are a big part of Yor\`ub\’a language and culture, into English. To evaluate these models, we present IkiniYor\`ub\’a, a Yor\`ub\’a-English translation dataset containing some Yor\`ub\’a greetings, and sample use cases. We analysed the performance of different multilingual NMT systems including Google and NLLB and show that these models struggle to accurately translate Yor\`ub\’a greetings into English. In addition, we trained a Yor\`ub\’a-English model by finetuning an existing NMT model on the training split of IkiniYor\`ub\’a and this achieved better performance when compared to the pre-trained multilingual NMT models, although they were trained on a large volume of data.
arxiv情報
著者 | Idris Akinade,Jesujoba Alabi,David Adelani,Clement Odoje,Dietrich Klakow |
発行日 | 2023-03-31 11:16:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI