Dataset Size Recovery from LoRA Weights

要約

モデル反転攻撃とメンバーシップ推論攻撃は、モデルがトレーニングされたデータを再構築して検証することを目的としています。
ただし、トレーニング セットのサイズがわからないため、すべてのトレーニング サンプルが見つかるとは限りません。
このペーパーでは、データセット サイズの回復という新しいタスクを紹介します。このタスクは、モデルのトレーニングに使用されるサンプルの数を重みから直接決定することを目的としています。
次に、微調整に LoRA を使用する一般的なケースで、モデルの微調整に使用される画像の数を回復する方法である DSiRe を提案します。
LoRA 行列のノルムとスペクトルの両方がデータセット サイズの微調整に密接に関連していることがわかりました。
私たちはこの発見を活用して、シンプルでありながら効果的な予測アルゴリズムを提案します。
LoRA 重みのデータセット サイズの回復を評価するために、2,000 を超える多様な LoRA 微調整モデルからの 25,000 を超える重みスナップショットで構成される新しいベンチマーク LoRA-WiSE を開発してリリースしました。
私たちの最良の分類子は、平均絶対誤差 0.36 画像で微調整画像の数を予測でき、この攻撃の実現可能性を確立します。

要約(オリジナル)

Model inversion and membership inference attacks aim to reconstruct and verify the data which a model was trained on. However, they are not guaranteed to find all training samples as they do not know the size of the training set. In this paper, we introduce a new task: dataset size recovery, that aims to determine the number of samples used to train a model, directly from its weights. We then propose DSiRe, a method for recovering the number of images used to fine-tune a model, in the common case where fine-tuning uses LoRA. We discover that both the norm and the spectrum of the LoRA matrices are closely linked to the fine-tuning dataset size; we leverage this finding to propose a simple yet effective prediction algorithm. To evaluate dataset size recovery of LoRA weights, we develop and release a new benchmark, LoRA-WiSE, consisting of over 25000 weight snapshots from more than 2000 diverse LoRA fine-tuned models. Our best classifier can predict the number of fine-tuning images with a mean absolute error of 0.36 images, establishing the feasibility of this attack.

arxiv情報

著者 Mohammad Salama,Jonathan Kahana,Eliahu Horwitz,Yedid Hoshen
発行日 2024-06-27 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク