Rethinking Benchmark and Contamination for Language Models with Rephrased Samples

要約

大規模な言語モデルは、人間によってこれまでに生成されたすべてのデータに基づいてますますトレーニングされています。
トレーニング前のデータセットや微調整されたデータセットに汚染が含まれる可能性があるため、公開ベンチマークの信頼性について多くの人が懸念を表明しています。
ほとんどのデータ除染の取り組みでは、ベンチマーク データを削除するために文字列マッチング (n グラムの重複など) を適用しますが、これらの方法では不十分であり、テスト データの単純なバリエーション (言い換え、翻訳など) によってこれらの除染手段が簡単に回避されてしまう可能性があることを示します。
さらに、このようなテスト データの変動が排除されない場合、13B モデルはテスト ベンチマークを簡単にオーバーフィットし、GPT-4 と同等の大幅に高いパフォーマンスを達成できることを示します。
このような観察結果は、MMLU、GSK8k、HumanEval などの広く使用されているベンチマークで検証されます。
この増大するリスクに対処するために、私たちはより強力な LLM ベースの除染方法を提案し、それを広く使用されている事前トレーニングおよび微調整データセットに適用し、これまで知られていなかったテストの重要な重複を明らかにしました。
たとえば、RedPajama-Data-1T や StarCoder-Data などの事前トレーニング セットでは、HumanEval ベンチマークの 8 ~ 18\% が重複していることが特定されました。
興味深いことに、GPT-3.5/4 によって生成された合成データセットでもそのような汚染が見つかり、意図しない汚染の潜在的なリスクが示唆されています。
私たちはコミュニティに対して、公共のベンチマークを使用する際に、より強力な除染アプローチを採用するよう促します。
さらに、モデルを正確に評価するための新しい 1 回限りの試験を積極的に開発することをコミュニティに呼びかけます。
当社の除染ツールは https://github.com/lm-sys/llm-decontaminator で公開されています。

要約(オリジナル)

Large language models are increasingly trained on all the data ever produced by humans. Many have raised concerns about the trustworthiness of public benchmarks due to potential contamination in pre-training or fine-tuning datasets. While most data decontamination efforts apply string matching (e.g., n-gram overlap) to remove benchmark data, we show that these methods are insufficient, and simple variations of test data (e.g., paraphrasing, translation) can easily bypass these decontamination measures. Furthermore, we demonstrate that if such variation of test data is not eliminated, a 13B model can easily overfit a test benchmark and achieve drastically high performance, on par with GPT-4. We validate such observations in widely used benchmarks such as MMLU, GSK8k, and HumanEval. To address this growing risk, we propose a stronger LLM-based decontamination method and apply it to widely used pre-training and fine-tuning datasets, revealing significant previously unknown test overlap. For example, in pre-training sets such as RedPajama-Data-1T and StarCoder-Data, we identified that 8-18\% of the HumanEval benchmark overlaps. Interestingly, we also find such contamination in synthetic dataset generated by GPT-3.5/4, suggesting a potential risk of unintentional contamination. We urge the community to adopt stronger decontamination approaches when using public benchmarks. Moreover, we call for the community to actively develop fresh one-time exams to evaluate models accurately. Our decontamination tool is publicly available at https://github.com/lm-sys/llm-decontaminator.

arxiv情報

著者 Shuo Yang,Wei-Lin Chiang,Lianmin Zheng,Joseph E. Gonzalez,Ion Stoica
発行日 2023-11-08 17:35:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク