Reconstructing Training Data From Real World Models Trained with Transfer Learning

要約

トレーニングされた分類器からトレーニング データを再構成する現在の方法は、非常に小さなモデル、限られたトレーニング セット サイズ、および低解像度の画像に限定されています。
このような制限により、現実世界のシナリオへの適用が妨げられます。
この論文では、高解像度画像でトレーニングされたモデルの現実的な設定でのデータ再構築を可能にする新しいアプローチを紹介します。
私たちの手法は、arXiv:2206.07758 の再構成スキームを現実世界のシナリオに適応させます。具体的には、DINO-ViT や CLIP などの大規模な事前トレーニング済みモデルの画像埋め込みに対する転移学習を介してトレーニングされたモデルをターゲットにしています。
私たちの研究では、画像空間ではなく埋め込み空間でのデータ再構築を採用しており、視覚データを超えた応用可能性を示しています。
さらに、数千の候補から適切な再構成を特定するための新しいクラスタリングベースの方法を導入します。
これにより、適切な再構成画像を識別するためにトレーニング セットの知識に依存していた以前の研究が大幅に改善されました。
私たちの調査結果は、転移学習を使用してトレーニングされたモデルからのデータ漏洩による潜在的なプライバシー リスクを明らかにしました。

要約(オリジナル)

Current methods for reconstructing training data from trained classifiers are restricted to very small models, limited training set sizes, and low-resolution images. Such restrictions hinder their applicability to real-world scenarios. In this paper, we present a novel approach enabling data reconstruction in realistic settings for models trained on high-resolution images. Our method adapts the reconstruction scheme of arXiv:2206.07758 to real-world scenarios — specifically, targeting models trained via transfer learning over image embeddings of large pre-trained models like DINO-ViT and CLIP. Our work employs data reconstruction in the embedding space rather than in the image space, showcasing its applicability beyond visual data. Moreover, we introduce a novel clustering-based method to identify good reconstructions from thousands of candidates. This significantly improves on previous works that relied on knowledge of the training set to identify good reconstructed images. Our findings shed light on a potential privacy risk for data leakage from models trained using transfer learning.

arxiv情報

著者 Yakir Oz,Gilad Yehudai,Gal Vardi,Itai Antebi,Michal Irani,Niv Haim
発行日 2024-07-22 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク