Does Data Contamination Detection Work (Well) for LLMs? A Survey and Evaluation on Detection Assumptions

要約

大規模言語モデル (LLM) は、さまざまなベンチマークにわたって優れたパフォーマンスを実証し、汎用タスク ソルバーとしての可能性を示しています。
ただし、LLM は通常、膨大な量のデータでトレーニングされるため、その評価における重大な懸念はデータ汚染です。トレーニング データと評価データセットの重複によってパフォーマンス評価が膨張します。
データ汚染を特定するために複数のアプローチが開発されていますが、これらのアプローチは特定の仮定に依存しており、さまざまな設定に普遍的に適用できるわけではありません。
このギャップを埋めるために、私たちはデータ汚染検出に関する 47 件の論文を系統的にレビューし、基礎となる前提を分類し、それらが厳密に検証されているかどうかを評価します。
私たちは 8 つのカテゴリーの仮定を特定して分析し、そのうちの 3 つをケーススタディとしてテストします。
私たちの分析では、LLM の事前トレーニングに使用されるインスタンスを分類するときに、これら 3 つの仮定に基づく検出アプローチがランダムな推測に近い動作を実行することが明らかになりました。これは、現在の LLM が個々のインスタンスを記憶するのではなく、データの分布を学習していることを示唆しています。
全体として、この研究は、基礎となる仮定を明確に述べ、さまざまなシナリオにわたってその妥当性をテストするアプローチの重要性を強調しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated great performance across various benchmarks, showing potential as general-purpose task solvers. However, as LLMs are typically trained on vast amounts of data, a significant concern in their evaluation is data contamination, where overlap between training data and evaluation datasets inflates performance assessments. While multiple approaches have been developed to identify data contamination, these approaches rely on specific assumptions that may not hold universally across different settings. To bridge this gap, we systematically review 47 papers on data contamination detection, categorize the underlying assumptions, and assess whether they have been rigorously validated. We identify and analyze eight categories of assumptions and test three of them as case studies. Our analysis reveals that when classifying instances used for pretraining LLMs, detection approaches based on these three assumptions perform close to random guessing, suggesting that current LLMs learn data distributions rather than memorizing individual instances. Overall, this work underscores the importance of approaches clearly stating their underlying assumptions and testing their validity across various scenarios.

arxiv情報

著者 Yujuan Fu,Ozlem Uzuner,Meliha Yetisgen,Fei Xia
発行日 2024-10-24 17:58:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク