要約
AI ベンチマークの整合性は、AI システムの機能を正確に評価するために不可欠です。
これらのベンチマークの内部妥当性、つまり、交絡因子がないことを確認することは、測定するように設計されたものを確実に測定するために重要です。
このペーパーでは、内部妥当性に関する重要な問題、つまり AI システムがテスト対象の機能をバイパスして、意図しない方法でベンチマークを解決できる可能性について検討します。
この現象は人体実験や動物実験で広く知られており、しばしば「賢いハンス効果」と呼ばれ、偽の手がかりを使用して課題が解決され、多くの場合、推定で評価されているプロセスよりもはるかに単純なプロセスが含まれます。
以前の研究では、言語モデルもこの動作を示す可能性があることが示唆されています。
いくつかの古い自然言語処理 (NLP) ベンチマークでは、「not」のような個々の $n$-gram が正しいラベルを高度に予測することが判明しており、教師あり NLP モデルがこれらのパターンを利用することが示されています。
この研究では、ベンチマーク インスタンスから抽出された単純な $n$-gram をどの程度組み合わせて、LLM 用に設計された最新の多肢選択ベンチマークのラベルを予測できるか、また LLM がそのような $n$-gram パターンを使用しているかどうかを調査します。
これらのベンチマークを解決します。
これらの $n$-gram でトレーニングされた単純な分類器が、テスト対象の機能が不足しているにもかかわらず、どのようにしていくつかのベンチマークで高スコアを達成できるかを示します。
さらに、現代の LLM がベンチマークを解決するためにこれらの表面的なパターンを使用している可能性があるという証拠も提供します。
これは、これらのベンチマークの内部妥当性が損なわれている可能性があることを示唆しており、ベンチマークの LLM パフォーマンス結果を解釈する際には注意が必要です。
要約(オリジナル)
The integrity of AI benchmarks is fundamental to accurately assess the capabilities of AI systems. The internal validity of these benchmarks – i.e., making sure they are free from confounding factors – is crucial for ensuring that they are measuring what they are designed to measure. In this paper, we explore a key issue related to internal validity: the possibility that AI systems can solve benchmarks in unintended ways, bypassing the capability being tested. This phenomenon, widely known in human and animal experiments, is often referred to as the ‘Clever Hans’ effect, where tasks are solved using spurious cues, often involving much simpler processes than those putatively assessed. Previous research suggests that language models can exhibit this behaviour as well. In several older Natural Language Processing (NLP) benchmarks, individual $n$-grams like ‘not’ have been found to be highly predictive of the correct labels, and supervised NLP models have been shown to exploit these patterns. In this work, we investigate the extent to which simple $n$-grams extracted from benchmark instances can be combined to predict labels in modern multiple-choice benchmarks designed for LLMs, and whether LLMs might be using such $n$-gram patterns to solve these benchmarks. We show how simple classifiers trained on these $n$-grams can achieve high scores on several benchmarks, despite lacking the capabilities being tested. Additionally, we provide evidence that modern LLMs might be using these superficial patterns to solve benchmarks. This suggests that the internal validity of these benchmarks may be compromised and caution should be exercised when interpreting LLM performance results on them.
arxiv情報
著者 | Lorenzo Pacchiardi,Marko Tesic,Lucy G. Cheke,José Hernández-Orallo |
発行日 | 2024-10-15 15:05:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google