AfriMTE and AfriCOMET: Empowering COMET to Embrace Under-resourced African Languages

要約

多言語機械翻訳 (MT) モデルと評価データをリソースが不足しているアフリカのいくつかの言語に拡張することで進歩を記録しているにもかかわらず、評価は N グラム マッチングで実行されることが多いため、これらの言語での進歩を正確に測定することは困難です。
BLEU のような指標は、人間の判断との相関がより悪いことがよくあります。
COMET などの埋め込みベースのメトリクスの相関性は高くなります。
しかし、リソースが不足している言語に対する人間による評価を含む評価データの欠如、多次元品質メトリクス (MQM) などのアノテーション ガイドラインの複雑さ、多言語エンコーダの対象言語の制限により、アフリカ言語への適用が妨げられています。
この論文では、類型的に多様なアフリカ 13 言語のエラースパン アノテーションと直接評価 (DA) スコアリングのための簡素化された MQM ガイドラインを使用して、高品質の人による評価データを作成することで、これらの課題に対処します。
さらに、高リソース言語からの DA トレーニング データとアフリカ中心の多言語エンコーダー (AfroXLM-Roberta) を活用して、アフリカ言語の COMET 評価指標である AfriCOMET を開発し、アフリカ言語の最先端の評価指標 MT を作成します。
人間の判断とスピアマンランクの相関関係に関しては (+0.406)。

要約(オリジナル)

Despite the progress we have recorded in scaling multilingual machine translation (MT) models and evaluation data to several under-resourced African languages, it is difficult to measure accurately the progress we have made on these languages because evaluation is often performed on n-gram matching metrics like BLEU that often have worse correlation with human judgments. Embedding-based metrics such as COMET correlate better; however, lack of evaluation data with human ratings for under-resourced languages, complexity of annotation guidelines like Multidimensional Quality Metrics (MQM), and limited language coverage of multilingual encoders have hampered their applicability to African languages. In this paper, we address these challenges by creating high-quality human evaluation data with a simplified MQM guideline for error-span annotation and direct assessment (DA) scoring for 13 typologically diverse African languages. Furthermore, we develop AfriCOMET, a COMET evaluation metric for African languages by leveraging DA training data from high-resource languages and African-centric multilingual encoder (AfroXLM-Roberta) to create the state-of-the-art evaluation metric for African languages MT with respect to Spearman-rank correlation with human judgments (+0.406).

arxiv情報

著者 Jiayi Wang,David Ifeoluwa Adelani,Sweta Agrawal,Ricardo Rei,Eleftheria Briakou,Marine Carpuat,Marek Masiak,Xuanli He,Sofia Bourhim,Andiswa Bukula,Muhidin Mohamed,Temitayo Olatoye,Hamam Mokayede,Christine Mwase,Wangui Kimotho,Foutse Yuehgoh,Anuoluwapo Aremu,Jessica Ojo,Shamsuddeen Hassan Muhammad,Salomey Osei,Abdul-Hakeem Omotayo,Chiamaka Chukwuneke,Perez Ogayo,Oumaima Hourrane,Salma El Anigri,Lolwethu Ndolela,Thabiso Mangwana,Shafie Abdi Mohamed,Ayinde Hassan,Oluwabusayo Olufunke Awoyomi,Lama Alkhaled,Sana Al-Azzawi,Naome A. Etori,Millicent Ochieng,Clemencia Siro,Samuel Njoroge,Eric Muchiri,Wangari Kimotho,Lyse Naomi Wamba Momo,Daud Abolade,Simbiat Ajao,Tosin Adewumi,Iyanuoluwa Shode,Ricky Macharm,Ruqayya Nasir Iro,Saheed S. Abdullahi,Stephen E. Moore,Bernard Opoku,Zainab Akinjobi,Abeeb Afolabi,Nnaemeka Obiefuna,Onyekachi Raphael Ogbu,Sam Brian,Verrah Akinyi Otiende,Chinedu Emmanuel Mbonu,Sakayo Toadoum Sari,Pontus Stenetorp
発行日 2023-11-16 11:52:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク