SEA-HELM: Southeast Asian Holistic Evaluation of Language Models

要約

大規模な言語モデル(LLMS)に新しい能力が急速に出現することで、統合された厳格な多言語および多文化ベンチマークの必要性がより顕著になりました。
既存のLLMベンチマークは、LLMの特定の機能を英語と、東南アジア(海)地域のものを含むさまざまな中程度から低リソース言語で評価することができますが、海の言語の包括的で文化的に代表的な評価スイートはこれまでに開発されていません。
ここでは、5つのコアピラーを含む海の言語を強調する全体的な言語および文化的LLM評価スイートであるシーヘルムを提示します:(1)NLPクラシック、(2)LLM特有、(3)海の言語学、(4)海の文化、(5)安全。
Sea-Helmは現在、フィリピン人、インドネシア、タミル語、タイ、ベトナム人を支援しています。
また、Sea-Helmのリーダーボードも紹介します。これにより、ユーザーは体系的でユーザーフレンドリーな方法でモデルの多言語と多文化のパフォーマンスを理解できるようにします。
シーヘルム評価コードを公開しています。

要約(オリジナル)

With the rapid emergence of novel capabilities in Large Language Models (LLMs), the need for rigorous multilingual and multicultural benchmarks that are integrated has become more pronounced. Though existing LLM benchmarks are capable of evaluating specific capabilities of LLMs in English as well as in various mid- to low-resource languages, including those in the Southeast Asian (SEA) region, a comprehensive and culturally representative evaluation suite for the SEA languages has not been developed thus far. Here, we present SEA-HELM, a holistic linguistic and cultural LLM evaluation suite that emphasises SEA languages, comprising five core pillars: (1) NLP Classics, (2) LLM-specifics, (3) SEA Linguistics, (4) SEA Culture, (5) Safety. SEA-HELM currently supports Filipino, Indonesian, Tamil, Thai, and Vietnamese. We also introduce the SEA-HELM leaderboard, which allows users to understand models’ multilingual and multicultural performance in a systematic and user-friendly manner. We make the SEA-HELM evaluation code publicly available.

arxiv情報

著者 Yosephine Susanto,Adithya Venkatadri Hulagadri,Jann Railey Montalan,Jian Gang Ngui,Xian Bin Yong,Weiqi Leong,Hamsawardhini Rengarajan,Peerat Limkonchotiwat,Yifan Mai,William Chandra Tjhi
発行日 2025-06-02 09:23:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク