XIFBench: Evaluating Large Language Models on Multilingual Instruction Following

要約

大規模な言語モデル(LLMS)は、さまざまなアプリケーションにわたって顕著な指導中の機能を実証しています。
ただし、既存の評価には細粒の制約分析がないため、多言語設定でのパフォーマンスはあまり理解されていません。
LLMSの多言語指導に従う能力を評価するための包括的な制約ベースのベンチマークであるXifbenchを紹介します。これは、異なるリソースレベルにまたがる6つの言語にわたって5つの制約カテゴリと465の並列命令の新しい分類法を特徴としています。
一貫した横断的評価を確保するために、英語の要件をセマンティックアンカーとして活用する要件ベースのプロトコルを開発します。
これらの要件は、言語間の翻訳を検証するために使用されます。
さまざまなLLMを使用した広範な実験により、リソースレベル全体で指導に従うパフォーマンスの顕著な変動が明らかになり、制約カテゴリ、命令の複雑さ、文化的特異性などの重要な影響要因が特定されています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable instruction-following capabilities across various applications. However, their performance in multilingual settings remains poorly understood, as existing evaluations lack fine-grained constraint analysis. We introduce XIFBench, a comprehensive constraint-based benchmark for assessing multilingual instruction-following abilities of LLMs, featuring a novel taxonomy of five constraint categories and 465 parallel instructions across six languages spanning different resource levels. To ensure consistent cross-lingual evaluation, we develop a requirement-based protocol that leverages English requirements as semantic anchors. These requirements are then used to validate the translations across languages. Extensive experiments with various LLMs reveal notable variations in instruction-following performance across resource levels, identifying key influencing factors such as constraint categories, instruction complexity, and cultural specificity.

arxiv情報

著者 Zhenyu Li,Kehai Chen,Yunfei Long,Xuefeng Bai,Yaoyin Zhang,Xuchen Wei,Juntao Li,Min Zhang
発行日 2025-03-10 17:07:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク