要約
大規模な言語モデル(LLMS)の時代では、公正な評価と倫理的リスクに関する懸念のため、事前トレーニングデータの検出がますます重要になっています。
現在の方法では、困惑やmin-k%などのスコアリング関数を設計することにより、メンバーと非会員を区別します。
ただし、トレーニングデータの多様性と複雑さは、区別の難しさを拡大し、事前販売データの検出において最適ではないパフォーマンスにつながります。
この論文では、最初に目に見えないデータの利点を調査します。これは、LLMのリリース後に簡単に収集できます。
LLMSの困惑は、以前に目にされていない少量のデータを微調整した後、メンバーと非会員の場合に異なって変化することがわかります。
これに照らして、微調整されたスコア偏差(FSD)と呼ばれる斬新で効果的な方法を導入します。これにより、データ検出前の現在のスコアリング関数のパフォーマンスが向上します。
特に、同じドメイン内の少量の目に見えないデータを微調整した後、電流スコアの偏差距離を測定することを提案します。
実際には、いくつかの目に見えないデータを使用すると、すべての非会員のスコアが大幅に減少し、メンバーよりも偏差距離が大きくなります。
広範な実験は、私たちの方法の有効性を実証し、さまざまなモデルで共通のベンチマークデータセットのAUCスコアを大幅に改善します。
要約(オリジナル)
In the era of large language models (LLMs), detecting pretraining data has been increasingly important due to concerns about fair evaluation and ethical risks. Current methods differentiate members and non-members by designing scoring functions, like Perplexity and Min-k%. However, the diversity and complexity of training data magnifies the difficulty of distinguishing, leading to suboptimal performance in detecting pretraining data. In this paper, we first explore the benefits of unseen data, which can be easily collected after the release of the LLM. We find that the perplexities of LLMs shift differently for members and non-members, after fine-tuning with a small amount of previously unseen data. In light of this, we introduce a novel and effective method termed Fine-tuned Score Deviation(FSD), which improves the performance of current scoring functions for pretraining data detection. In particular, we propose to measure the deviation distance of current scores after fine-tuning on a small amount of unseen data within the same domain. In effect, using a few unseen data can largely decrease the scores of all non-members, leading to a larger deviation distance than members. Extensive experiments demonstrate the effectiveness of our method, significantly improving the AUC score on common benchmark datasets across various models.
arxiv情報
著者 | Hengxiang Zhang,Songxin Zhang,Bingyi Jing,Hongxin Wei |
発行日 | 2025-03-17 12:29:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google