What the HellaSwag? On the Validity of Common-Sense Reasoning Benchmarks

要約

一般的な推論は、特定の事実の知識だけでなく、一般的な言語と世界の理解をカプセル化するため、重要な言語モデルの能力です。
したがって、一般的な推論を測定することは、さまざまなサイズとアプリケーションの言語モデルにとって重要です。
このような機能を評価するために最も広く使用されているベンチマークの1つは、Hellaswagです。
ただし、この論文では、重度の構成妥当性の問題があることを示しています。
これらの問題は、基本的な非文法性や多数のタイプミスから、誤解を招くプロンプトまたは同様に正しいオプションにまで及びます。
さらに、モデルが回答テキストでのみ評価されている場合、または「Lorem Ipsum Dolor …」でモデルが評価されている場合、モデル予測の65%以上が同じままであり、これは単に汚染に起因することはできません。
ベンチマークスコアは、研究および商業用アプリケーションの両方においてモデル選択の重要な部分であるため、これらの妥当性の問題は深刻な結果をもたらす可能性があります。
特に、ベンチマークスコアを額面で取得することは遍在的で不十分な評価が、モデルに関する情報に基づいた決定につながることを知ることです。
この論文では、Hellaswagによって提起された重大な妥当性の問題を徹底的に調査し、さまざまなサイズの生成言語モデルを使用してさまざまな評価で説明します。
このベンチマークは、常識的な推論を正確に測定しないため、現在の状態での評価に使用すべきではないと主張します。
私たちの研究の結果に基づいて、将来の常識的な推論ベンチマークによって満たされるべき要件を提案します。
さらに、Hellaswagの修正されたサブセットであるGoldenswagをリリースします。

要約(オリジナル)

Common-sense reasoning is a key language model capability because it encapsulates not just specific factual knowledge but rather general language and world understanding. Measuring common-sense reasoning, therefore, is crucial for language models of different sizes and applications. One of the most widely used benchmarks for evaluating such capabilities is HellaSwag; however, in this paper, we show that it has severe construct validity issues. These issues range from basic ungrammaticality and numerous typos to misleading prompts or equally correct options. Furthermore, we show that if models are evaluated only on answer texts, or with ‘Lorem ipsum dolor…’ instead of the question, more than 65% of model predictions remain the same, and this cannot be attributed merely to contamination. Since benchmark scores are an essential part of model selection in both research and commercial applications, these validity issues can have severe consequences. In particular, knowing that taking benchmark scores at face value is ubiquitous, inadequate evaluation leads to ill-informed decisions about models. In this paper, we thoroughly investigate critical validity issues posed by HellaSwag and illustrate them with various evaluations using generative language models of different sizes. We argue that this benchmark does not accurately measure common-sense reasoning and, therefore, should not be used for evaluation in its current state. Based on the results of our study, we propose requirements that should be met by future common-sense reasoning benchmarks. In addition, we release GoldenSwag, a corrected subset of HellaSwag, which, to our belief, facilitates acceptable common-sense reasoning evaluation.

arxiv情報

著者 Pavel Chizhov,Mattia Nee,Pierre-Carl Langlais,Ivan P. Yamshchikov
発行日 2025-04-10 15:01:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク