要約
中国の大手言語モデル(LLMS)の急速な進歩は、信頼できるアプリケーションを確保するためにドメイン固有の評価の必要性を強調しています。
ただし、既存のベンチマークには、垂直ドメインのカバレッジが不足していることが多く、中国の作業コンテキストに対する洞察が限られています。
人間の専門知識評価のための統一されたフレームワークとしての資格試験を活用すると、中国のLLMのローカライズされた評価に特化した最初のマルチドメイン中国のQAベンチマークであるQualbenchを紹介します。
データセットには、6つの垂直ドメインにわたって17,000を超える質問が含まれており、24の中国の資格に基づいたデータの選択は、国家政策と作業基準に密接に合わせています。
包括的な評価を通じて、QWEN2.5モデルは、より高度なGPT-4Oを上回り、中国のLLMは一貫して非中国語モデルを上回り、資格要件を満たす際のローカライズされたドメイン知識の重要性を強調しました。
75.26%の最高のパフォーマンスにより、モデル機能内のドメインカバレッジの現在のギャップが明らかになります。
さらに、クラウドソーシングメカニズムとのLLMコラボレーションの失敗を提示し、連合学習を用いたマルチドメインRAG知識強化と垂直ドメインLLMトレーニングの機会を示唆しています。
要約(オリジナル)
The rapid advancement of Chinese large language models (LLMs) underscores the need for domain-specific evaluations to ensure reliable applications. However, existing benchmarks often lack coverage in vertical domains and offer limited insights into the Chinese working context. Leveraging qualification exams as a unified framework for human expertise evaluation, we introduce QualBench, the first multi-domain Chinese QA benchmark dedicated to localized assessment of Chinese LLMs. The dataset includes over 17,000 questions across six vertical domains, with data selections grounded in 24 Chinese qualifications to closely align with national policies and working standards. Through comprehensive evaluation, the Qwen2.5 model outperformed the more advanced GPT-4o, with Chinese LLMs consistently surpassing non-Chinese models, highlighting the importance of localized domain knowledge in meeting qualification requirements. The best performance of 75.26% reveals the current gaps in domain coverage within model capabilities. Furthermore, we present the failure of LLM collaboration with crowdsourcing mechanisms and suggest the opportunities for multi-domain RAG knowledge enhancement and vertical domain LLM training with Federated Learning.
arxiv情報
著者 | Mengze Hong,Wailing Ng,Di Jiang,Chen Jason Zhang |
発行日 | 2025-05-08 13:16:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google