Expanding FLORES+ Benchmark for more Low-Resource Settings: Portuguese-Emakhuwa Machine Translation Evaluation

要約

Open Language Data Initiative の共有タスクの一環として、モザンビークで広く話されている低リソース言語である Emakhuwa を含めるように FLORES+ 評価セットを拡張しました。
dev および devtest セットをポルトガル語から Emakhuwa に翻訳し、使用された翻訳プロセスと品質保証手段について詳しく説明します。
私たちの方法論には、事後編集や適切性評価を含むさまざまな品質チェックが含まれていました。
結果として得られるデータセットは、ソースごとに複数の参照文で構成されます。
ニューラル機械翻訳システムのトレーニングと既存の多言語翻訳モデルの微調整から得たベースライン結果を示します。
私たちの調査結果は、エマクワ語ではスペルの不一致が依然として課題であることを示唆しています。
さらに、ベースライン モデルはこの評価セットでのパフォーマンスを下回っており、Emakhuwa の機械翻訳の品質を向上させるためにさらなる研究が必要であることが強調されました。
データは https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES で公開されています。

要約(オリジナル)

As part of the Open Language Data Initiative shared tasks, we have expanded the FLORES+ evaluation set to include Emakhuwa, a low-resource language widely spoken in Mozambique. We translated the dev and devtest sets from Portuguese into Emakhuwa, and we detail the translation process and quality assurance measures used. Our methodology involved various quality checks, including post-editing and adequacy assessments. The resulting datasets consist of multiple reference sentences for each source. We present baseline results from training a Neural Machine Translation system and fine-tuning existing multilingual translation models. Our findings suggest that spelling inconsistencies remain a challenge in Emakhuwa. Additionally, the baseline models underperformed on this evaluation set, underscoring the necessity for further research to enhance machine translation quality for Emakhuwa. The data is publicly available at https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.

arxiv情報

著者 Felermino D. M. Antonio Ali,Henrique Lopes Cardoso,Rui Sousa-Silva
発行日 2024-08-21 09:23:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク