Detecting Benchmark Contamination Through Watermarking

要約

ベンチマークの汚染は、テストセットでモデルがトレーニングされているかどうかを主張することは困難であるため、大規模な言語モデル(LLMS)評価の信頼性に大きな課題をもたらします。
リリース前にベンチマークを透かしてこの問題の解決策を紹介します。
埋め込みには、ベンチマークユーティリティを変更しない方法で、透かし式LLMで元の質問を再定式化することが含まれます。
評価中に、理論的に接地された統計テストを使用して、トレーニング中にテキスト透かしがモデルに残ることを「放射能」で検出できます。
制御されたベンチマーク汚染を備えた10Bトークンで1Bモデルをゼロからトレーニング前にテストし、アークイシー、アークチャレンジ、およびMMLUに対する汚染の検出におけるその有効性を検証します。
結果は、モデルがパフォーマンスを向上させるのに十分なほど汚染されている場合、ウォーターマーク後の同様のベンチマークユーティリティと汚染検出の成功を示しています。
$ p $ -val $ = 10^{-3} $ for +5 $ \%$ arc-easy。

要約(オリジナル)

Benchmark contamination poses a significant challenge to the reliability of Large Language Models (LLMs) evaluations, as it is difficult to assert whether a model has been trained on a test set. We introduce a solution to this problem by watermarking benchmarks before their release. The embedding involves reformulating the original questions with a watermarked LLM, in a way that does not alter the benchmark utility. During evaluation, we can detect “radioactivity”, \ie traces that the text watermarks leave in the model during training, using a theoretically grounded statistical test. We test our method by pre-training 1B models from scratch on 10B tokens with controlled benchmark contamination, and validate its effectiveness in detecting contamination on ARC-Easy, ARC-Challenge, and MMLU. Results show similar benchmark utility post-watermarking and successful contamination detection when models are contaminated enough to enhance performance, e.g. $p$-val $=10^{-3}$ for +5$\%$ on ARC-Easy.

arxiv情報

著者 Tom Sander,Pierre Fernandez,Saeed Mahloujifar,Alain Durmus,Chuan Guo
発行日 2025-02-24 15:39:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク