Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach

要約

LLM が急速に進化する中、これらのモデルを理解し、前進させる上での評価の重要性がますます重要になっています。
評価の結果、スケーリング、トレーニングの種類、アーキテクチャ、その他の要因が LLM のパフォーマンスに大きく影響することが明らかになりました。
ただし、ほとんどの評価が限られた数のモデルとデータポイントに限定されているため、これらの影響の範囲と性質は引き続き議論の対象となっています。
パフォーマンス スコアに対するこれらの要因の影響を明確にすることは、統計的なレンズを使用することでより効果的に行うことができます。
私たちの研究は、現在の評価方法の不備を対象として、これらの LLM の徹底的な再検討に着手します。
統一的な評価フレームワークの出現により、私たちの研究では評価結果の広範なデータセットを活用し、包括的な統計手法を導入しています。
これには、ANOVA、Tukey HSD テスト、GAMM、クラスタリング手法のアプリケーションが含まれており、LLM パフォーマンス データを解読するための堅牢かつ透過的なアプローチを提供します。
一般的な調査結果とは対照的に、私たちの結果は、LLM における創発的な能力と特定のトレーニングの種類とアーキテクチャの影響に関する仮定に疑問を投げかけています。
これらの発見は、LLM の特徴、本質、および発達の軌跡についての新しい視点を提供します。
この研究は、LLM パフォーマンス データを精査および再評価するための簡単で信頼できる方法を提供することにより、LLM の効率と可能性に関する微妙な視点に貢献します。

要約(オリジナル)

Amidst the rapid evolution of LLMs, the significance of evaluation in comprehending and propelling these models forward is increasingly paramount. Evaluations have revealed that factors such as scaling, training types, architectures and other factors profoundly impact the performance of LLMs. However, the extent and nature of these impacts continue to be subjects of debate because most assessments have been restricted to a limited number of models and data points. Clarifying the effects of these factors on performance scores can be more effectively achieved through a statistical lens. Our study embarks on a thorough re-examination of these LLMs, targeting the inadequacies in current evaluation methods. With the advent of a uniform evaluation framework, our research leverages an expansive dataset of evaluation results, introducing a comprehensive statistical methodology. This includes the application of ANOVA, Tukey HSD tests, GAMM, and clustering technique, offering a robust and transparent approach to deciphering LLM performance data. Contrary to prevailing findings, our results challenge assumptions about emergent abilities and the influence of given training types and architectures in LLMs. These findings furnish new perspectives on the characteristics, intrinsic nature, and developmental trajectories of LLMs. By providing straightforward and reliable methods to scrutinize and reassess LLM performance data, this study contributes a nuanced perspective on LLM efficiency and potentials.

arxiv情報

著者 Kun Sun,Rong Wang,Haitao Liu,Anders Søgaard
発行日 2024-03-22 14:47:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク