From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation

要約

AI システム、特に大規模言語モデル (LLM) のような生成モデルが成長し続けるにつれて、開発と展開にはその厳密な評価が不可欠です。
それらの適切性を判断するために、研究者は、いわゆるゴールドスタンダードのテストセットに対してさまざまな大規模なベンチマークを開発し、すべての項目で平均した指標を報告しました。
しかし、この静的評価パラダイムは、高い計算コスト、データ汚染、評価の信頼性と効率に対する低品質または誤った項目の影響など、その限界をますます明らかにしています。
この視点では、人間の心理測定に基づいて、静的な評価方法から適応テストへのパラダイム シフトについて説明します。
これには、ベンチマークの各テスト項目の特性と値を推定し、項目をリアルタイムで動的に調整し、固定のテスト セットに依存するのではなく、モデルの継続的なパフォーマンスに基づいて評価を調整することが含まれます。
このパラダイムは、より堅牢な能力推定を提供するだけでなく、必要なテスト項目の数を大幅に削減します。
AI 評価に心理測定を採用する現在のアプローチ、利点、根本的な理由を分析します。
私たちは、適応テストが AI モデル評価の新たな標準となり、高度なインテリジェンス システムの評価の効率と有効性の両方が向上すると提案します。

要約(オリジナル)

As AI systems continue to grow, particularly generative models like Large Language Models (LLMs), their rigorous evaluation is crucial for development and deployment. To determine their adequacy, researchers have developed various large-scale benchmarks against a so-called gold-standard test set and report metrics averaged across all items. However, this static evaluation paradigm increasingly shows its limitations, including high computational costs, data contamination, and the impact of low-quality or erroneous items on evaluation reliability and efficiency. In this Perspective, drawing from human psychometrics, we discuss a paradigm shift from static evaluation methods to adaptive testing. This involves estimating the characteristics and value of each test item in the benchmark and dynamically adjusting items in real-time, tailoring the evaluation based on the model’s ongoing performance instead of relying on a fixed test set. This paradigm not only provides a more robust ability estimation but also significantly reduces the number of test items required. We analyze the current approaches, advantages, and underlying reasons for adopting psychometrics in AI evaluation. We propose that adaptive testing will become the new norm in AI model evaluation, enhancing both the efficiency and effectiveness of assessing advanced intelligence systems.

arxiv情報

著者 Yan Zhuang,Qi Liu,Yuting Ning,Weizhe Huang,Zachary A. Pardos,Patrick C. Kyllonen,Jiyun Zu,Qingyang Mao,Rui Lv,Zhenya Huang,Guanhao Zhao,Zheng Zhang,Shijin Wang,Enhong Chen
発行日 2024-08-06 09:24:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク