要約
機械読解(MRC)は、自然言語の理解を評価する上で重要な作業です。
既存のMRCデータセットは、主に読解力(RC)の特定の側面を評価し、包括的なMRCベンチマークを欠いています。
このギャップを埋めるために、最初にRCに必要な重要な機能を分類する新しい分類法を紹介します。
この分類法に基づいて、MRCEVALは、高度な大手言語モデル(LLM)をサンプルジェネレーターと選択審査員の両方として活用するMRCベンチマークであると構築します。
MRCEVALは、LLMのRC機能を徹底的に評価するために設計された包括的な、挑戦的でアクセス可能なベンチマークであり、合計2.1Kの高品質のマルチ選択質問で13の異なるRCスキルをカバーしています。
広く使用されている28のオープンソースと独自のモデルの広範な評価を実行し、MRCがLLMSの時代でさえも重要な課題を提示し続けていることを強調しています。
要約(オリジナル)
Machine Reading Comprehension (MRC) is an essential task in evaluating natural language understanding. Existing MRC datasets primarily assess specific aspects of reading comprehension (RC), lacking a comprehensive MRC benchmark. To fill this gap, we first introduce a novel taxonomy that categorizes the key capabilities required for RC. Based on this taxonomy, we construct MRCEval, an MRC benchmark that leverages advanced Large Language Models (LLMs) as both sample generators and selection judges. MRCEval is a comprehensive, challenging and accessible benchmark designed to assess the RC capabilities of LLMs thoroughly, covering 13 distinct RC skills with a total of 2.1K high-quality multi-choice questions. We perform an extensive evaluation of 28 widely used open-source and proprietary models, highlighting that MRC continues to present significant challenges even in the era of LLMs.
arxiv情報
著者 | Shengkun Ma,Hao Peng,Lei Hou,Juanzi Li |
発行日 | 2025-03-10 10:20:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google