要約
大規模言語モデル (LLM) は通常、人間が作成したベンチマークを使用して評価されます。これは、スコアが高いほど人間に近いパフォーマンスがより強力であることを暗黙的に反映しているという前提に基づいています。
しかし、LLM がデータ漏洩によりこれらのベンチマークを「ゲーム」し、人間にとって簡単なタスクに苦戦しながらも高スコアを達成するのではないかという懸念が高まっています。
この問題に実質的に対処するために、中国の国家大学入学試験(Gaokao)に基づいた包括的なベンチマークである GAOKAO-Eval を作成し、Gaokao より前にリリースされた代表的なモデルに対して「クローズドブック」評価を実施します。
一般的なコンセンサスに反して、データ漏洩と包括性に対処した後でも、GAOKAO-Eval は、高いスコアが依然として人間と連携した能力を真に反映していないことを明らかにしました。
この不一致をよりよく理解するために、認知心理学の Rasch モデルを導入して LLM スコア パターンを分析し、2 つの重要な不一致を特定します。1) さまざまな問題の難易度にわたる異常な一貫したパフォーマンス、2) 同様の難易度の質問におけるパフォーマンスの大きなばらつき。
さらに、教師間で LLM が生成した解答の採点が一貫していないことや、繰り返される間違いのパターンも特定しました。
これらの現象は OpenAI o1 の背後にある動機に十分な根拠があり、o1 の困難としての推論により不一致を緩和できることがわかりました。
これらの結果は、GAOKAO-Eval が現在のベンチマークでは捉えられていない LLM 機能の限界を明らかにし、より LLM に合わせた難易度分析の必要性を強調できることを示しています。
要約(オリジナル)
Large Language Models (LLMs) are commonly evaluated using human-crafted benchmarks, under the premise that higher scores implicitly reflect stronger human-like performance. However, there is growing concern that LLMs may “game’ these benchmarks due to data leakage, achieving high scores while struggling with tasks simple for humans. To substantively address the problem, we create GAOKAO-Eval, a comprehensive benchmark based on China’s National College Entrance Examination (Gaokao), and conduct “closed-book’ evaluations for representative models released prior to Gaokao. Contrary to prevailing consensus, even after addressing data leakage and comprehensiveness, GAOKAO-Eval reveals that high scores still fail to truly reflect human-aligned capabilities. To better understand this mismatch, We introduce the Rasch model from cognitive psychology to analyze LLM scoring patterns and identify two key discrepancies: 1) anomalous consistent performance across various question difficulties, and 2) high variance in performance on questions of similar difficulty. In addition, We identified inconsistent grading of LLM-generated answers among teachers and recurring mistake patterns. we find that the phenomenons are well-grounded in the motivations behind OpenAI o1, and o1’s reasoning-as-difficulties can mitigate the mismatch. These results show that GAOKAO-Eval can reveal limitations in LLM capabilities not captured by current benchmarks and highlight the need for more LLM-aligned difficulty analysis.
arxiv情報
著者 | Zhikai Lei,Tianyi Liang,Hanglei Hu,Jin Zhang,Yunhua Zhou,Yunfan Shao,Linyang Li,Chenchui Li,Changbo Wang,Hang Yan,Qipeng Guo |
発行日 | 2024-12-13 11:38:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google