Proving Test Set Contamination in Black Box Language Models

要約

大規模な言語モデルは膨大な量のインターネット データに基づいてトレーニングされるため、言語モデルが公開ベンチマークを記憶しているのではないかという懸念や憶測が生じています。
独自のモデルで使用される事前トレーニング データは一般に公開されていないことが多いため、推測から汚染の証明に至ることは困難です。
事前トレーニング データやモデルの重みにアクセスせずに、言語モデルにおけるテスト セットの汚染の証明可能な保証を提供できることを示します。
私たちのアプローチは、データ汚染がない場合、交換可能なベンチマークのすべての注文の可能性が等しいはずであるという事実を利用しています。
対照的に、言語モデルが例の順序を記憶する傾向は、汚染された言語モデルが特定の正規の順序が他の順序よりもはるかに高いと判断することを意味します。
私たちのテストでは、標準的に順序付けされたベンチマーク データセットの可能性が、例をシャッフルした後の可能性よりも大幅に高い場合に、潜在的な汚染のフラグを立てます。
私たちの手順は、14 億個ものパラメータを持つモデル、わずか 1000 例の小規模なテスト セット、事前トレーニング コーパスに数回しか出現しないデータセットなど、困難な状況でもテスト セットの汚染を確実に証明できるほど高感度であることを実証します。
私たちのテストを使用して、公的にアクセス可能な 5 つの一般的な言語モデルのテスト セットの汚染を監査しましたが、蔓延する汚染の証拠はほとんど見つかりませんでした。

要約(オリジナル)

Large language models are trained on vast amounts of internet data, prompting concerns and speculation that they have memorized public benchmarks. Going from speculation to proof of contamination is challenging, as the pretraining data used by proprietary models are often not publicly accessible. We show that it is possible to provide provable guarantees of test set contamination in language models without access to pretraining data or model weights. Our approach leverages the fact that when there is no data contamination, all orderings of an exchangeable benchmark should be equally likely. In contrast, the tendency for language models to memorize example order means that a contaminated language model will find certain canonical orderings to be much more likely than others. Our test flags potential contamination whenever the likelihood of a canonically ordered benchmark dataset is significantly higher than the likelihood after shuffling the examples. We demonstrate that our procedure is sensitive enough to reliably prove test set contamination in challenging situations, including models as small as 1.4 billion parameters, on small test sets of only 1000 examples, and datasets that appear only a few times in the pretraining corpus. Using our test, we audit five popular publicly accessible language models for test set contamination and find little evidence for pervasive contamination.

arxiv情報

著者 Yonatan Oren,Nicole Meister,Niladri Chatterji,Faisal Ladhak,Tatsunori B. Hashimoto
発行日 2023-10-26 17:43:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク