Hey, That’s My Data! Label-Only Dataset Inference in Large Language Models

要約

大規模な言語モデル(LLM)は、解釈、推論、人間の言語の生成に優れていることにより、自然言語処理に革命をもたらしました。
ただし、大規模で独自のデータセットへの依存は、重大な課題を提起します。そのようなデータの不正使用は、著作権侵害と重大な経済的害につながる可能性があります。
既存のデータセット推論方法は、通常、疑わしいトレーニング資料を検出するためのログ確率に依存しますが、多くの主要なLLMはこれらの信号を差し控えまたは難読化し始めています。
この現実は、内部モデルロジットに依存せずにデータセットメンバーシップを識別できるラベルのみのアプローチの差し迫った必要性を強調しています。
このギャップに対処し、壊滅的な忘却を活用するラベルのみのデータセット関数フレームワークであるCatShiftを導入することにより、LLMが新しいデータにさらされたときに以前に学習した知識を上書きする傾向を導入します。
疑わしいデータセットがモデルで以前に見られた場合、その一部で微調整すると、モデルの出力の顕著な調整後のシフトがトリガーされます。
逆に、真に新しいデータは、より控えめな変化を引き出します。
疑わしいデータセットのモデルの出力シフトを既知の非会員検証セットのものと比較することにより、疑わしいセットがモデルの元のトレーニングコーパスの一部である可能性が高いかどうかを統計的に決定します。
オープンソースとAPIベースのLLMの両方での広範な実験は、ロジット不可能な設定におけるCatShiftの有効性を検証し、独自のデータを保護するための堅牢で実用的なソリューションを提供します。

要約(オリジナル)

Large Language Models (LLMs) have revolutionized Natural Language Processing by excelling at interpreting, reasoning about, and generating human language. However, their reliance on large-scale, often proprietary datasets poses a critical challenge: unauthorized usage of such data can lead to copyright infringement and significant financial harm. Existing dataset-inference methods typically depend on log probabilities to detect suspicious training material, yet many leading LLMs have begun withholding or obfuscating these signals. This reality underscores the pressing need for label-only approaches capable of identifying dataset membership without relying on internal model logits. We address this gap by introducing CatShift, a label-only dataset-inference framework that capitalizes on catastrophic forgetting: the tendency of an LLM to overwrite previously learned knowledge when exposed to new data. If a suspicious dataset was previously seen by the model, fine-tuning on a portion of it triggers a pronounced post-tuning shift in the model’s outputs; conversely, truly novel data elicits more modest changes. By comparing the model’s output shifts for a suspicious dataset against those for a known non-member validation set, we statistically determine whether the suspicious set is likely to have been part of the model’s original training corpus. Extensive experiments on both open-source and API-based LLMs validate CatShift’s effectiveness in logit-inaccessible settings, offering a robust and practical solution for safeguarding proprietary data.

arxiv情報

著者 Chen Xiong,Zihao Wang,Rui Zhu,Tsung-Yi Ho,Pin-Yu Chen,Jingwei Xiong,Haixu Tang,Lucila Ohno-Machado
発行日 2025-06-06 13:02:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク