Unveiling Synthetic Faces: How Synthetic Datasets Can Expose Real Identities

要約

合成データ生成は、さまざまなコンピューター ビジョン アプリケーションで人気が高まっています。
既存の最先端の顔認識モデルは、インターネットからクロールされた大規模な顔データセットを使用してトレーニングされているため、プライバシーと倫理上の懸念が生じます。
このような懸念に対処するために、いくつかの研究では、顔認識モデルをトレーニングするために合成顔データセットを生成することが提案されています。
ただし、これらの方法は、実際の顔画像でトレーニングされた生成モデルに依存しています。
この研究では、既存の合成顔認識データセットのいずれかが、ジェネレータ モデルのトレーニングに使用された実際のデータから情報を漏洩していないかどうかを体系的に調査するために、シンプルかつ効果的なメンバーシップ推論攻撃を設計します。
私たちは 6 つの最先端の合成顔認識データセットに関する広範な研究を提供し、これらすべての合成データセットで、元の実際のデータセットからのいくつかのサンプルが漏洩していることを示します。
私たちの知る限り、この論文は、ジェネレーター モデルのトレーニング データから生成された合成顔認識データセットへの漏洩を示した最初の研究です。
私たちの研究は、合成顔認識データセットにおけるプライバシーの落とし穴を実証し、責任ある合成顔データセットの生成に関する将来の研究への道を開きます。

要約(オリジナル)

Synthetic data generation is gaining increasing popularity in different computer vision applications. Existing state-of-the-art face recognition models are trained using large-scale face datasets, which are crawled from the Internet and raise privacy and ethical concerns. To address such concerns, several works have proposed generating synthetic face datasets to train face recognition models. However, these methods depend on generative models, which are trained on real face images. In this work, we design a simple yet effective membership inference attack to systematically study if any of the existing synthetic face recognition datasets leak any information from the real data used to train the generator model. We provide an extensive study on 6 state-of-the-art synthetic face recognition datasets, and show that in all these synthetic datasets, several samples from the original real dataset are leaked. To our knowledge, this paper is the first work which shows the leakage from training data of generator models into the generated synthetic face recognition datasets. Our study demonstrates privacy pitfalls in synthetic face recognition datasets and paves the way for future studies on generating responsible synthetic face datasets.

arxiv情報

著者 Hatef Otroshi Shahreza,Sébastien Marcel
発行日 2024-10-31 15:17:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク