Benchmarks as Microscopes: A Call for Model Metrology

要約

最新の言語モデル (LM) は、能力評価に新たな課題をもたらします。
静的ベンチマークは、LM ベースのシステムのデプロイメント耐性に信頼を与えることなく必然的に飽和しますが、それでも開発者は、モデルには、これらの欠陥のあるメトリクスに基づいた推論やオープンドメイン言語の理解などの一般化された特性があると主張しています。
LM の科学と実践には、動的な評価で特定の機能を測定するベンチマークへの新しいアプローチが必要です。
メトリクスに自信を持てるようにするには、モデル計測学の新しい分野が必要です。これは、導入時のパフォーマンスを予測するベンチマークを生成する方法に焦点を当てたものです。
私たちの評価基準に基づいて、ツールの構築とシステム機能の測定方法の研究に焦点を当てたモデル計測学の実践者のコミュニティを構築することが、これらのニーズを満たし、AI の議論を明確にする最善の方法であることを概説します。

要約(オリジナル)

Modern language models (LMs) pose a new challenge in capability assessment. Static benchmarks inevitably saturate without providing confidence in the deployment tolerances of LM-based systems, but developers nonetheless claim that their models have generalized traits such as reasoning or open-domain language understanding based on these flawed metrics. The science and practice of LMs requires a new approach to benchmarking which measures specific capabilities with dynamic assessments. To be confident in our metrics, we need a new discipline of model metrology — one which focuses on how to generate benchmarks that predict performance under deployment. Motivated by our evaluation criteria, we outline how building a community of model metrology practitioners — one focused on building tools and studying how to measure system capabilities — is the best way to meet these needs to and add clarity to the AI discussion.

arxiv情報

著者 Michael Saxon,Ari Holtzman,Peter West,William Yang Wang,Naomi Saphra
発行日 2024-07-30 04:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク