DICE: Detecting In-distribution Contamination in LLM’s Fine-tuning Phase for Math Reasoning

要約

大規模言語モデル (LLM) の進歩は公開ベンチマークを使用した評価に依存していますが、データの汚染によりパフォーマンスが過大評価される可能性があります。
これまでの研究は、モデルがトレーニング中にまったく同じデータを参照したかどうかを判断することによって汚染を検出することに焦点を当てていました。
この研究では、ベンチマーク データと同様のデータでトレーニングした場合でも、全体のキャパシティが向上することなく、ディストリビューション内タスクのパフォーマンスが上昇すると主張します。これをディストリビューション内汚染と呼びます。
分布内の汚染を効果的に検出するために、LLM の内部状態を活用して汚染の位置を特定して検出する新しい手法である DICE を提案します。
DICE は、まず汚染に対して最も敏感な層を特定し、次にその層の内部状態に基づいて分類器をトレーニングします。
実験により、さまざまな LLM および数学的推論データセットにわたる分布内の汚染を検出する DICE の高い精度が明らかになりました。
また、同様の分布を持つ複数のベンチマークにわたる汚染を検出できる、訓練された DICE 検出器の一般化機能も示します。
さらに、DICE 検出スコアは、4 つの数的推論データセット ($R^2$ 値が 0.6 ~ 0.75) に対して当社または他の組織によって微調整された 10 個の LLM のパフォーマンスと正の相関があることがわかりました。
これは、流通内の汚染問題が、多くの既存モデルの真の性能の過大評価につながる可能性があることを示しています。
コードとデータは https://github.com/THU-KEG/DICE で入手できます。

要約(オリジナル)

The advancement of large language models (LLMs) relies on evaluation using public benchmarks, but data contamination can lead to overestimated performance. Previous researches focus on detecting contamination by determining whether the model has seen the exact same data during training. In this work, we argue that even training on data similar to benchmark data inflates performance on in-distribution tasks without improving overall capacity, which we called In-distribution contamination. To effectively detect in-distribution contamination, we propose DICE, a novel method that leverages the internal states of LLMs to locate-then-detect the contamination. DICE first identifies the most sensitive layer to contamination, then trains a classifier based on the internal states of that layer. Experiments reveal DICE’s high accuracy in detecting in-distribution contamination across various LLMs and math reasoning datasets. We also show the generalization capability of the trained DICE detector, which is able to detect contamination across multiple benchmarks with similar distributions. Additionally, we find that the DICE detection scores are positively correlated with the performance of ten LLMs fine-tuned by either us or other organizations on four math reasoning datasets (with $R^2$ values between 0.6 and 0.75). This indicates that the in-distribution contamination problem potentially lead to an overestimation of the true capabilities of many existing models. The code and data are available at https://github.com/THU-KEG/DICE.

arxiv情報

著者 Shangqing Tu,Kejian Zhu,Yushi Bai,Zijun Yao,Lei Hou,Juanzi Li
発行日 2024-06-06 15:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク