Do Large Language Model Benchmarks Test Reliability?

要約

大規模な言語モデル(LLMS)を展開する場合、これらのモデルが有能であるだけでなく、信頼性が高いことを確認することが重要です。
LLMSの成長能力を追跡するために多くのベンチマークが作成されていますが、信頼性の測定に同様の焦点はありませんでした。
このギャップの潜在的な影響を理解するために、現在のベンチマークがモデルの信頼性をどの程度定量化するかを調査します。
広範なラベルエラーは、これらの評価を危険にさらし、長引くモデルの障害を曖昧にし、信頼できない動作を隠すことができることがわかります。
信頼性の評価におけるこのギャップに動機付けられた後、いわゆるプラチナベンチマークの概念を提案します。つまり、ラベルのエラーと曖昧さを最小限に抑えるために慎重にキュレーションされたベンチマークを提案します。
このようなベンチマークを構築する最初の試みとして、15の既存の人気のあるベンチマークから例を修正します。
これらのプラチナベンチマークで幅広いモデルを評価し、実際、フロンティアLLMが依然として初等レベルの数学語の問題などの単純なタスクで障害を示していることがわかります。
これらの障害を分析すると、フロンティアモデルが一貫して苦労している問題の以前は正体不明のパターンがさらに明らかになります。
https://github.com/madrylab/platinum-benchmarksでコードを提供します

要約(オリジナル)

When deploying large language models (LLMs), it is important to ensure that these models are not only capable, but also reliable. Many benchmarks have been created to track LLMs’ growing capabilities, however there has been no similar focus on measuring their reliability. To understand the potential ramifications of this gap, we investigate how well current benchmarks quantify model reliability. We find that pervasive label errors can compromise these evaluations, obscuring lingering model failures and hiding unreliable behavior. Motivated by this gap in the evaluation of reliability, we then propose the concept of so-called platinum benchmarks, i.e., benchmarks carefully curated to minimize label errors and ambiguity. As a first attempt at constructing such benchmarks, we revise examples from fifteen existing popular benchmarks. We evaluate a wide range of models on these platinum benchmarks and find that, indeed, frontier LLMs still exhibit failures on simple tasks such as elementary-level math word problems. Analyzing these failures further reveals previously unidentified patterns of problems on which frontier models consistently struggle. We provide code at https://github.com/MadryLab/platinum-benchmarks

arxiv情報

著者 Joshua Vendrow,Edward Vendrow,Sara Beery,Aleksander Madry
発行日 2025-02-05 18:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク