要約
大規模な言語モデル(LLMS)は、さまざまなアプリケーションにわたって顕著な指導中の機能を実証しています。
ただし、既存の評価には細粒の制約分析がないため、多言語設定でのパフォーマンスはあまり理解されていません。
LLMSの多言語指導に従う能力を評価するための包括的な制約ベースのベンチマークであるXifbenchを紹介します。これは、異なるリソースレベルにまたがる6つの言語にわたって5つの制約カテゴリと465の並列命令の新しい分類法を特徴としています。
一貫した横断的評価を確保するために、英語の要件をセマンティックアンカーとして活用する要件ベースのプロトコルを開発します。
これらの要件は、言語間の翻訳を検証するために使用されます。
さまざまなLLMを使用した広範な実験により、リソースレベル全体で指導に従うパフォーマンスの顕著な変動が明らかになり、制約カテゴリ、命令の複雑さ、文化的特異性などの重要な影響要因が特定されています。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable instruction-following capabilities across various applications. However, their performance in multilingual settings remains poorly understood, as existing evaluations lack fine-grained constraint analysis. We introduce XIFBench, a comprehensive constraint-based benchmark for assessing multilingual instruction-following abilities of LLMs, featuring a novel taxonomy of five constraint categories and 465 parallel instructions across six languages spanning different resource levels. To ensure consistent cross-lingual evaluation, we develop a requirement-based protocol that leverages English requirements as semantic anchors. These requirements are then used to validate the translations across languages. Extensive experiments with various LLMs reveal notable variations in instruction-following performance across resource levels, identifying key influencing factors such as constraint categories, instruction complexity, and cultural specificity.
arxiv情報
著者 | Zhenyu Li,Kehai Chen,Yunfei Long,Xuefeng Bai,Yaoyin Zhang,Xuchen Wei,Juntao Li,Min Zhang |
発行日 | 2025-03-10 17:07:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google