PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models

要約

大規模言語モデル (LLM) は、大量のデータでトレーニングされることが知られており、そのデータには、意図せずまたは意図的に、一般的に使用されるベンチマークのデータが含まれる場合があります。
これを含めると、モデルのリーダーボードでは不正に高いスコアが得られる可能性がありますが、実際のアプリケーションでは期待外れのパフォーマンスが発生する可能性があります。
このベンチマーク汚染問題に対処するために、我々はまず、実際の汚染検出方法が従うべき一連の要件を提案します。
これらの提案された要件に従って、LLM のベンチマーク汚染を効果的に検出するためのペア信頼有意性テストである PaCoST を導入します。
私たちの方法では、同じ分布を持つ各データの対応物を構築し、対応する信頼度の統計分析を実行して、モデルが元のベンチマークの下で大幅に信頼性が高いかどうかをテストします。
PaCoST の有効性を検証し、それを一般的なオープンソース モデルやベンチマークに適用します。
私たちがテストしたほぼすべてのモデルとベンチマークは、多かれ少なかれ汚染されている疑いがあることがわかりました。
最後に、新しい LLM 評価方法を求めます。

要約(オリジナル)

Large language models (LLMs) are known to be trained on vast amounts of data, which may unintentionally or intentionally include data from commonly used benchmarks. This inclusion can lead to cheatingly high scores on model leaderboards, yet result in disappointing performance in real-world applications. To address this benchmark contamination problem, we first propose a set of requirements that practical contamination detection methods should follow. Following these proposed requirements, we introduce PaCoST, a Paired Confidence Significance Testing to effectively detect benchmark contamination in LLMs. Our method constructs a counterpart for each piece of data with the same distribution, and performs statistical analysis of the corresponding confidence to test whether the model is significantly more confident under the original benchmark. We validate the effectiveness of PaCoST and apply it on popular open-source models and benchmarks. We find that almost all models and benchmarks we tested are suspected contaminated more or less. We finally call for new LLM evaluation methods.

arxiv情報

著者 Huixuan Zhang,Yun Lin,Xiaojun Wan
発行日 2024-06-26 13:12:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク