IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models

要約

大規模言語モデル (LLM) が広く採用されているにもかかわらず、その優れた機能は依然として少数の高リソース言語に限定されています。
さらに、多くの低リソース言語 (アフリカ言語など) は、高リソース言語以外には適切または包括的なベンチマークが存在しないため、基本的なテキスト分類タスクでのみ評価されることがよくあります。
この論文では、IrokoBench を紹介します。IrokoBench は、自然言語推論 (AfriXNLI)、数学的推論 (AfriMGSM)、多肢選択知識の 3 つのタスクをカバーする、類型的に多様な低リソースのアフリカ言語 16 言語の人為翻訳ベンチマーク データセットです。
ベースのQA~(AfriMMLU)。
私たちは IrokoBench を使用して、10 個のオープン LLM と 4 個の独自 LLM にわたるゼロショット、少数ショット、および翻訳テスト設定 (テスト セットが英語に翻訳される) を評価します。
私たちの評価では、リソースの多い言語 (英語やフランス語など) とリソースの少ないアフリカ言語との間には、パフォーマンスに大きな差があることが明らかになりました。
オープン モデルと独自モデルの間には大きなパフォーマンスのギャップがあり、最もパフォーマンスの高いオープン モデルであるaya-101 のパフォーマンスは、最も優れた独自モデル GPT-4o の 58% にすぎません。
評価前にテスト セットを英語に機械翻訳することで、LLaMa 3 70B のような英語中心の大型モデルのギャップを埋めることができました。
これらの調査結果は、LLM をアフリカの言語に開発および適応させるにはさらなる努力が必要であることを示唆しています。

要約(オリジナル)

Despite the widespread adoption of Large language models (LLMs), their remarkable capabilities remain limited to a few high-resource languages. Additionally, many low-resource languages (e.g. African languages) are often evaluated only on basic text classification tasks due to the lack of appropriate or comprehensive benchmarks outside of high-resource languages. In this paper, we introduce IrokoBench — a human-translated benchmark dataset for 16 typologically-diverse low-resource African languages covering three tasks: natural language inference~(AfriXNLI), mathematical reasoning~(AfriMGSM), and multi-choice knowledge-based QA~(AfriMMLU). We use IrokoBench to evaluate zero-shot, few-shot, and translate-test settings~(where test sets are translated into English) across 10 open and four proprietary LLMs. Our evaluation reveals a significant performance gap between high-resource languages~(such as English and French) and low-resource African languages. We observe a significant performance gap between open and proprietary models, with the highest performing open model, Aya-101 only at 58\% of the best-performing proprietary model GPT-4o performance. Machine translating the test set to English before evaluation helped to close the gap for larger models that are English-centric, like LLaMa 3 70B. These findings suggest that more efforts are needed to develop and adapt LLMs for African languages.

arxiv情報

著者 David Ifeoluwa Adelani,Jessica Ojo,Israel Abebe Azime,Jian Yun Zhuang,Jesujoba O. Alabi,Xuanli He,Millicent Ochieng,Sara Hooker,Andiswa Bukula,En-Shiun Annie Lee,Chiamaka Chukwuneke,Happy Buzaaba,Blessing Sibanda,Godson Kalipe,Jonathan Mukiibi,Salomon Kabongo,Foutse Yuehgoh,Mmasibidi Setaka,Lolwethu Ndolela,Nkiruka Odu,Rooweither Mabuya,Shamsuddeen Hassan Muhammad,Salomey Osei,Sokhar Samb,Tadesse Kebede Guge,Pontus Stenetorp
発行日 2024-06-05 15:23:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク