PATCH! Psychometrics-AssisTed benCHmarking of Large Language Models: A Case Study of Proficiency in 8th Grade Mathematics

要約

大規模 (マルチモーダル) 言語モデル (LLM) の既存のベンチマークの多くは、LLM の学力の測定に焦点を当てており、多くの場合、モデルのパフォーマンスを人間の受験者と比較することにも関心を持っています。
これらのベンチマークは LLM 開発の鍵であることが証明されていますが、疑わしい測定品質 (例: 信頼できる方法で本来のものを測定しているか?)、品目レベルでの品質評価の欠如 (例: 品質評価の欠如) など、いくつかの制限があります。
、一部の項目は他の項目よりも重要または困難ですか?) および不明確な人間集団の参照 (例: モデルは誰と比較できますか?)。
これらの課題に対応するため、私たちは、学力などの潜在変数の測定に特化した分野である心理測定学の知識を LLM ベンチマークに活用することを提案します。
私たちは主に 3 つの貢献を行っています。
まず、PATCH を紹介します。これは、LLM の{P}サイコメトリクス-{A}シス{T}ed ben{CH}マーキングのための新しいフレームワークです。
PATCH は前述の制限に対処し、LLM ベンチマーク研究に新しい方向性を示します。
2 番目に、GPT-4 と Gemini-Pro-Vision の 8 年生数学の習熟度を 56 人の人間母集団に対して測定することで PATCH を実装します。
心理測定ベースのアプローチを採用すると、既存のベンチマーク手法に基づく評価結果とは異なる評価結果が得られることを示します。
3 番目に、小学校の数学と科学における LLM 習熟度の測定と人間集団との比較をサポートする 4 つの高品質データセットをリリースします。

要約(オリジナル)

Many existing benchmarks of large (multimodal) language models (LLMs) focus on measuring LLMs’ academic proficiency, often with also an interest in comparing model performance with human test takers. While these benchmarks have proven key to the development of LLMs, they suffer from several limitations, including questionable measurement quality (e.g., Do they measure what they are supposed to in a reliable way?), lack of quality assessment on the item level (e.g., Are some items more important or difficult than others?) and unclear human population reference (e.g., To whom can the model be compared?). In response to these challenges, we propose leveraging knowledge from psychometrics – a field dedicated to the measurement of latent variables like academic proficiency – into LLM benchmarking. We make three primary contributions. First, we introduce PATCH: a novel framework for {P}sychometrics-{A}ssis{T}ed ben{CH}marking of LLMs. PATCH addresses the aforementioned limitations, presenting a new direction for LLM benchmark research. Second, we implement PATCH by measuring GPT-4 and Gemini-Pro-Vision’s proficiency in 8th grade mathematics against 56 human populations. We show that adopting a psychometrics-based approach yields evaluation outcomes that diverge from those based on existing benchmarking practices. Third, we release 4 high-quality datasets to support measuring and comparing LLM proficiency in grade school mathematics and science against human populations.

arxiv情報

著者 Qixiang Fang,Daniel L. Oberski,Dong Nguyen
発行日 2024-07-25 13:12:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク