Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models

要約

大規模言語モデル (LLM) の事前トレーニング データ検出の問題は、著作権違反やテスト データの汚染などの重大な問題に影響を与えるため、注目が高まっています。
この問題に対する一般的な直感は、入力が LLM の分布モードからのものであるかどうかを確認することによってトレーニング データを識別することです。
ただし、最先端の Min-K% を含む既存のアプローチでは、検出に 0 次信号が使用されることが多く、極大値を決定する際の堅牢性は 2 次統計に比べて劣ります。
この研究では、入力付近で尤度がどの程度急激にピークに達しているかを測定する、事前トレーニング データ検出のための新しい方法論 Min-K%++ を提案します。これは、連続分布の曲率に類似した測定です。
私たちの方法は理論的には、最尤トレーニングがスコア マッチングを通じて尤度のヘッセ行列のトレースを暗黙的に最適化するという観察によって動機づけられています。
経験的に、提案された方法は複数の設定にわたって新しい SOTA パフォーマンスを達成します。
WikiMIA ベンチマークでは、AUROC の 5 つのモデルの平均検出において、Min-K%++ が次点の製品を 6.2% ~ 10.5% 上回っています。
より困難な MIMIR ベンチマークでは、追加の参照モデルを必要とする参照ベースの手法と同等のパフォーマンスを示しながら、参照不要の手法を一貫して改善しています。

要約(オリジナル)

The problem of pre-training data detection for large language models (LLMs) has received growing attention due to its implications in critical issues like copyright violation and test data contamination. A common intuition for this problem is to identify training data by checking if the input comes from a mode of the LLM’s distribution. However, existing approaches, including the state-of-the-art Min-K%, often use zeroth-order signals for detection, which are less robust in determining local maxima than second-order statistics. In this work, we propose a novel methodology Min-K%++ for pre-training data detection that measures how sharply peaked the likelihood is around the input, a measurement analogous to the curvature of continuous distribution. Our method is theoretically motivated by the observation that maximum likelihood training implicitly optimizes the trace of the Hessian matrix of likelihood through score matching. Empirically, the proposed method achieves new SOTA performance across multiple settings. On the WikiMIA benchmark, Min-K%++ outperforms the runner-up by 6.2% to 10.5% in detection AUROC averaged over five models. On the more challenging MIMIR benchmark, it consistently improves upon reference-free methods while performing on par with reference-based method that requires an extra reference model.

arxiv情報

著者 Jingyang Zhang,Jingwei Sun,Eric Yeats,Yang Ouyang,Martin Kuo,Jianyi Zhang,Hao Frank Yang,Hai Li
発行日 2024-05-10 15:10:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク