TMI! Finetuned Models Leak Private Information from their Pretraining Data

要約

転移学習は、1 つのタスク用にトレーニングされた事前トレーニング済みモデルを利用して、関連するタスク用の微調整されたモデルの構築を支援する方法として、機械学習においてますます人気のある手法になっています。
このパラダイムは、機械学習の $\textit{privacy}$ で特に人気があり、事前トレーニングされたモデルは公開され、微調整用のデータのみが機密であるとみなされます。
ただし、事前トレーニングに使用されるデータは依然として機密であると考える理由があり、微調整されたモデルが事前トレーニング データに関してどの程度の情報を漏洩するかを理解することが不可欠です。
この研究では、攻撃者が微調整されたモデルにのみアクセスでき、事前トレーニング データのメンバーシップを推測したいという新しいメンバーシップ推論脅威モデルを提案します。
この脅威モデルを実現するために、下流タスクの予測に対する記憶された事前トレーニング サンプルの影響を利用する、新しいメタ分類子ベースの攻撃 $\textbf{TMI}$ を実装します。
$\textbf{TMI}$ は、差分プライバシーの微調整を含む、複数の転移学習設定にわたって視覚タスクと自然言語タスクの両方で評価されます。
評価を通じて、$\textbf{TMI}$ は、微調整されたモデルへのクエリ アクセスを使用して、事前トレーニング サンプルのメンバーシップを正常に推論できることがわかりました。
$\textbf{TMI}$ のオープンソース実装は $\href{https://github.com/johnmath/tmi-pets24}{\text{on GitHub}}$ にあります。

要約(オリジナル)

Transfer learning has become an increasingly popular technique in machine learning as a way to leverage a pretrained model trained for one task to assist with building a finetuned model for a related task. This paradigm has been especially popular for $\textit{privacy}$ in machine learning, where the pretrained model is considered public, and only the data for finetuning is considered sensitive. However, there are reasons to believe that the data used for pretraining is still sensitive, making it essential to understand how much information the finetuned model leaks about the pretraining data. In this work we propose a new membership-inference threat model where the adversary only has access to the finetuned model and would like to infer the membership of the pretraining data. To realize this threat model, we implement a novel metaclassifier-based attack, $\textbf{TMI}$, that leverages the influence of memorized pretraining samples on predictions in the downstream task. We evaluate $\textbf{TMI}$ on both vision and natural language tasks across multiple transfer learning settings, including finetuning with differential privacy. Through our evaluation, we find that $\textbf{TMI}$ can successfully infer membership of pretraining examples using query access to the finetuned model. An open-source implementation of $\textbf{TMI}$ can be found $\href{https://github.com/johnmath/tmi-pets24}{\text{on GitHub}}$.

arxiv情報

著者 John Abascal,Stanley Wu,Alina Oprea,Jonathan Ullman
発行日 2024-03-21 15:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク