要約
大規模な言語モデル(LLMS)の最近の進歩は、翻訳、コード生成、推論などのタスク全体でさまざまな多言語機能を紹介します。
以前の評価では、範囲が基本的な自然言語処理(NLP)または孤立した能力固有のタスクに制限されていることがよくありました。
この欠点を軽減するために、包括的な多言語マルチタスクベンチマークを提示することを目指しています。
まず、効果的な基本的および能力専門化されたデータセットをカバーする大規模なベンチマークであるP-Mmevalを紹介します。
さらに、P-Mmevalは、さまざまなデータセットで一貫した言語カバレッジを提供し、並列サンプルを提供します。
最後に、代表的な多言語モデルシリーズで広範な実験を実施して、モデルとタスクのパフォーマンスを比較し、多言語のパフォーマンスとタスク、モデルサイズ、言語、プロンプトなどの要因との関係を調査し、英語から他の言語への知識移転の有効性を調べます。
結果として生じる洞察は、将来の研究に貴重なガイダンスを提供することを目的としています。
データセットは、https://huggingface.co/datasets/qwen/p-mmevalで入手できます。
要約(オリジナル)
Recent advancements in large language models (LLMs) showcase varied multilingual capabilities across tasks like translation, code generation, and reasoning. Previous assessments often limited their scope to fundamental natural language processing (NLP) or isolated capability-specific tasks. To alleviate this drawback, we aim to present a comprehensive multilingual multitask benchmark. First, we introduce P-MMEval, a large-scale benchmark covering effective fundamental and capability-specialized datasets. Furthermore, P-MMEval delivers consistent language coverage across various datasets and provides parallel samples. Finally, we conduct extensive experiments on representative multilingual model series to compare performances across models and tasks, explore the relationship between multilingual performances and factors such as tasks, model sizes, languages, and prompts, and examine the effectiveness of knowledge transfer from English to other languages. The resulting insights are intended to offer valuable guidance for future research. The dataset is available at https://huggingface.co/datasets/Qwen/P-MMEval.
arxiv情報
著者 | Yidan Zhang,Yu Wan,Boyi Deng,Baosong Yang,Haoran Wei,Fei Huang,Bowen Yu,Junyang Lin,Fei Huang,Jingren Zhou |
発行日 | 2025-05-14 02:29:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google