IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models

要約

大規模な言語モデル(LLM)の広範な採用にもかかわらず、それらの顕著な能力はいくつかの高リソース言語に限定されたままです。
さらに、多くの低リソース言語(アフリカ言語)は、高リソース言語以外の適切または包括的なベンチマークがないため、基本的なテキスト分類タスクでのみ評価されます。
このペーパーでは、3つのタスクをカバーする類型的に多様な低リソースアフリカ言語のヒト翻訳ベンチマークデータセットであるIrokobenchを紹介します。
ベースの質問応答〜(afrimmlu)。
iRokobenchを使用して、ゼロショット、少数のショット、翻訳テスト設定を評価します〜(テストセットが英語に翻訳される場所)は、10個のオープンLLMと6個の独自のLLMにわたって行われます。
私たちの評価は、高リソース言語〜(英語やフランス語など)と低リソースのアフリカ言語の間に大きなパフォーマンスギャップを明らかにしています。
オープンモデルと独自のモデルの間に大きなパフォーマンスギャップが観察され、最高のパフォーマンスのオープンモデルであるGemma 2 27bは、最高パフォーマンスの独自モデルGPT-4Oパフォーマンスの63%のみでのみです。
さらに、評価前にテストセットを英語に翻訳するマシンは、Gemma 2 27bやLlama 3.1 70bなど、英語中心のより大きなモデルのギャップを埋めるのに役立ちました。
これらの調査結果は、アフリカ言語のLLMを開発および適応させるためにより多くの努力が必要であることを示唆しています。

要約(オリジナル)

Despite the widespread adoption of Large language models (LLMs), their remarkable capabilities remain limited to a few high-resource languages. Additionally, many low-resource languages (\eg African languages) are often evaluated only on basic text classification tasks due to the lack of appropriate or comprehensive benchmarks outside of high-resource languages. In this paper, we introduce IrokoBench — a human-translated benchmark dataset for 17 typologically-diverse low-resource African languages covering three tasks: natural language inference~(AfriXNLI), mathematical reasoning~(AfriMGSM), and multi-choice knowledge-based question answering~(AfriMMLU). We use IrokoBench to evaluate zero-shot, few-shot, and translate-test settings~(where test sets are translated into English) across 10 open and six proprietary LLMs. Our evaluation reveals a significant performance gap between high-resource languages~(such as English and French) and low-resource African languages. We observe a significant performance gap between open and proprietary models, with the highest performing open model, Gemma 2 27B only at 63\% of the best-performing proprietary model GPT-4o performance. In addition, machine translating the test set to English before evaluation helped to close the gap for larger models that are English-centric, such as Gemma 2 27B and LLaMa 3.1 70B. These findings suggest that more efforts are needed to develop and adapt LLMs for African languages.

arxiv情報

著者 David Ifeoluwa Adelani,Jessica Ojo,Israel Abebe Azime,Jian Yun Zhuang,Jesujoba O. Alabi,Xuanli He,Millicent Ochieng,Sara Hooker,Andiswa Bukula,En-Shiun Annie Lee,Chiamaka Chukwuneke,Happy Buzaaba,Blessing Sibanda,Godson Kalipe,Jonathan Mukiibi,Salomon Kabongo,Foutse Yuehgoh,Mmasibidi Setaka,Lolwethu Ndolela,Nkiruka Odu,Rooweither Mabuya,Shamsuddeen Hassan Muhammad,Salomey Osei,Sokhar Samb,Tadesse Kebede Guge,Tombekai Vangoni Sherman,Pontus Stenetorp
発行日 2025-01-23 17:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク