MALAMUTE: A Multilingual, Highly-granular, Template-free, Education-based Probing Dataset

要約

言語モデル (LM) は、さまざまな広範な領域で優れています。
ただし、現実世界の教育現場に安全かつ効果的に統合するには、特定の粒度の細かい知識領域での習熟度を証明する必要があります。
LM の知識を評価するために一般的に使用される既存の cloze スタイルのベンチマークには、3 つの大きな制限があります。
それらは: 1) 教育領域をカバーしていません。
2) 通常は、複雑性の低い一般的な知識または広範な領域に焦点を当てており、特定の主題におけるモデルの知識が適切に評価されていません。
3) 多くの場合、モデルの予測に偏りをもたらす可能性があるテンプレートに依存します。
ここでは、3 つの言語 (英語、スペイン語、ポーランド語) にわたる 71 冊の大学レベルの教科書から専門家が作成し、査読済みのプローブで構成された、多言語でテンプレート不要の非常に粒度の細かいプローブ データセットである MALAMUTE を紹介します。
MALAMUTE は、初の教育ベースのクローゼ スタイル データセットです。
これは 8 つのドメインをカバーしており、それぞれに最大 14 のサブドメインがあり、さらに概念と概念ベースのプロンプトに分類され、合計 33,361 の大学カリキュラムの概念と 116,887 のプロンプトになります。
MALAMUTE は粒度が細かく、教育に焦点を当てており、文レベルと段落レベルの両方のプロンプトが含​​まれているため、LM のコース関連の知識を評価するための理想的なツールとなっています。
MALAMUTE におけるマスクされた因果的 LM の評価では、全体的な習熟にもかかわらず、特定の主題について詳しく調べると知識に大きなギャップがあることが示され、教室での安全な使用が妨げられ、さらなる開発の必要性が強調されています。

要約(オリジナル)

Language models (LMs) have excelled in various broad domains. However, to ensure their safe and effective integration into real-world educational settings, they must demonstrate proficiency in specific, granular areas of knowledge. Existing cloze-style benchmarks, commonly used to evaluate LMs’ knowledge, have three major limitations. They: 1) do not cover the educational domain; 2) typically focus on low-complexity, generic knowledge or broad domains, which do not adequately assess the models’ knowledge in specific subjects; and 3) often rely on templates that can bias model predictions. Here, we introduce MALAMUTE, a multilingual, template-free, and highly granular probing dataset comprising expert-written, peer-reviewed probes from 71 university-level textbooks across three languages (English, Spanish, and Polish). MALAMUTE is the first education-based cloze-style dataset. It covers eight domains, each with up to 14 subdomains, further broken down into concepts and concept-based prompts, totaling 33,361 university curriculum concepts and 116,887 prompts. MALAMUTE’s fine granularity, educational focus, and inclusion of both sentence-level and paragraph-level prompts make it an ideal tool for evaluating LMs’ course-related knowledge. Our evaluation of masked and causal LMs on MALAMUTE shows that despite overall proficiency, they have significant gaps in knowledge when examined closely on specific subjects, hindering their safe use in classrooms and underscoring the need for further development.

arxiv情報

著者 Sagi Shaier,George Arthur Baker,Chiranthan Sridhar,Lawrence E Hunter,Katharina von der Wense
発行日 2024-12-13 12:46:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク