Domain Mastery Benchmark: An Ever-Updating Benchmark for Evaluating Holistic Domain Knowledge of Large Language Model–A Preliminary Release

要約

ドメイン知識とは、特定の主題、業界、分野、または特別な関心のある分野についての深い理解、専門知識、および精通度を指します。
既存のベンチマークはすべて、ドメイン知識を評価するための全体的な設計が不足しています。
ドメイン言語理解の本当の能力は、包括的で詳細なベンチマークによってのみ公正に評価できるという信念を持ち、ドメイン マスタリー ベンチマークである Domma を導入します。
DomMa は、ドメイン知識の理解に関する大規模言語モデル (LLM) をテストすることを目的としており、広範なドメインをカバーし、大量のデータ量と、中国語 112 の第 1 レベルの主題分類に基づいた継続的に更新されるデータ セットを特徴としています。
DomMa は、中国の大学の大学院入学試験と学部試験から出典された中国語と英語の 100,000 問で構成されています。
また、ベンチマークと評価プロセスをLLMに適したものにするための設計も提案しています。

要約(オリジナル)

Domain knowledge refers to the in-depth understanding, expertise, and familiarity with a specific subject, industry, field, or area of special interest. The existing benchmarks are all lack of an overall design for domain knowledge evaluation. Holding the belief that the real ability of domain language understanding can only be fairly evaluated by an comprehensive and in-depth benchmark, we introduces the Domma, a Domain Mastery Benchmark. DomMa targets at testing Large Language Models (LLMs) on their domain knowledge understanding, it features extensive domain coverage, large data volume, and a continually updated data set based on Chinese 112 first-level subject classifications. DomMa consist of 100,000 questions in both Chinese and English sourced from graduate entrance examinations and undergraduate exams in Chinese college. We have also propose designs to make benchmark and evaluation process more suitable to LLMs.

arxiv情報

著者 Zhouhong Gu,Xiaoxuan Zhu,Haoning Ye,Lin Zhang,Zhuozhi Xiong,Zihan Li,Qianyu He,Sihang Jiang,Hongwei Feng,Yanghua Xiao
発行日 2023-08-10 05:27:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク