要約
言語間の大規模言語モデル (LLM) のパフォーマンスの違いにより、多くの地域での効果的な展開が妨げられ、多くのコミュニティにおける生成 AI ツールの潜在的な経済的および社会的価値が阻害されます。
しかし、多くの言語での関数型 LLM (つまり、多言語 LLM) の開発は、英語以外の言語での高品質の評価リソースが不足していることがボトルネックとなっています。
さらに、多言語ベンチマーク構築における現在の慣行では、多言語システムが使用される環境に関する地域的および文化的知識を無視して、英語のリソースが翻訳されることがよくあります。
この研究では、さまざまな地域の状況における多言語 LLM の能力を測定するために、地元の試験ソースから 197,243 の QA ペアの評価スイートを構築します。
私たちの新しいリソースである INCLUDE は、44 の書き言葉にわたる知識と推論を中心とした包括的なベンチマークであり、多言語 LLM がデプロイされる実際の言語環境でのパフォーマンスを評価します。
要約(オリジナル)
The performance differential of large language models (LLM) between languages hinders their effective deployment in many regions, inhibiting the potential economic and societal value of generative AI tools in many communities. However, the development of functional LLMs in many languages (\ie, multilingual LLMs) is bottlenecked by the lack of high-quality evaluation resources in languages other than English. Moreover, current practices in multilingual benchmark construction often translate English resources, ignoring the regional and cultural knowledge of the environments in which multilingual systems would be used. In this work, we construct an evaluation suite of 197,243 QA pairs from local exam sources to measure the capabilities of multilingual LLMs in a variety of regional contexts. Our novel resource, INCLUDE, is a comprehensive knowledge- and reasoning-centric benchmark across 44 written languages that evaluates multilingual LLMs for performance in the actual language environments where they would be deployed.
arxiv情報
著者 | Angelika Romanou,Negar Foroutan,Anna Sotnikova,Zeming Chen,Sree Harsha Nelaturu,Shivalika Singh,Rishabh Maheshwary,Micol Altomare,Mohamed A. Haggag,Snegha A,Alfonso Amayuelas,Azril Hafizi Amirudin,Viraat Aryabumi,Danylo Boiko,Michael Chang,Jenny Chim,Gal Cohen,Aditya Kumar Dalmia,Abraham Diress,Sharad Duwal,Daniil Dzenhaliou,Daniel Fernando Erazo Florez,Fabian Farestam,Joseph Marvin Imperial,Shayekh Bin Islam,Perttu Isotalo,Maral Jabbarishiviari,Börje F. Karlsson,Eldar Khalilov,Christopher Klamm,Fajri Koto,Dominik Krzemiński,Gabriel Adriano de Melo,Syrielle Montariol,Yiyang Nan,Joel Niklaus,Jekaterina Novikova,Johan Samir Obando Ceron,Debjit Paul,Esther Ploeger,Jebish Purbey,Swati Rajwal,Selvan Sunitha Ravi,Sara Rydell,Roshan Santhosh,Drishti Sharma,Marjana Prifti Skenduli,Arshia Soltani Moakhar,Bardia Soltani Moakhar,Ran Tamir,Ayush Kumar Tarun,Azmine Toushik Wasi,Thenuka Ovin Weerasinghe,Serhan Yilmaz,Mike Zhang,Imanol Schlag,Marzieh Fadaee,Sara Hooker,Antoine Bosselut |
発行日 | 2024-11-29 16:03:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google