要約
この論文では、スペイン語から 11 の先住民言語への翻訳を含む、先住民言語への機械翻訳に関する AmericasNLP 2023 共有タスクへのシェフィールド大学の提出について説明します。
私たちのアプローチは、NLLB-200 のさまざまなバリエーションを拡張、トレーニング、アンサンブルすることで構成されています。
私たちは主催者から提供されたデータと、憲法、ハンドブック、ニュース記事、単一言語データから生成された逆翻訳などのさまざまなソースからのデータを使用します。
開発セットでは、私たちの最高の提出物は、すべての言語にわたって平均 chrF でベースラインを 11% 上回り、特にアイマラ語、グアラニー語、ケチュア語で大幅な改善が見られました。
テスト セットでは、すべての提出物の中で最高の平均 chrF を達成し、11 言語のうち 4 つで 1 位にランクされ、すべての言語で少なくとも 1 つの提出物がトップ 3 にランクされました。
要約(オリジナル)
In this paper we describe the University of Sheffield’s submission to the AmericasNLP 2023 Shared Task on Machine Translation into Indigenous Languages which comprises the translation from Spanish to eleven indigenous languages. Our approach consists of extending, training, and ensembling different variations of NLLB-200. We use data provided by the organizers and data from various other sources such as constitutions, handbooks, news articles, and backtranslations generated from monolingual data. On the dev set, our best submission outperforms the baseline by 11% average chrF across all languages, with substantial improvements particularly for Aymara, Guarani and Quechua. On the test set, we achieve the highest average chrF of all the submissions, we rank first in four of the eleven languages, and at least one of our submissions ranks in the top 3 for all languages.
arxiv情報
著者 | Edward Gow-Smith,Danae Sánchez Villegas |
発行日 | 2023-06-16 13:15:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google