Massively Annotated Datasets for Assessment of Synthetic and Real Data in Face Recognition

要約

顔認識アプリケーションは、データセットのサイズ、深層学習モデルの複雑さ、計算能力の増大と並行して成長してきました。
ただし、深層学習モデルが進化してより高性能になり、計算能力が向上し続ける一方で、利用可能なデータセットは撤回され、一般アクセスから削除されています。
プライバシーと倫理的懸念は、これらの分野に関連するトピックです。
研究者たちは、生成人工知能を通じて、顔認識システムのトレーニングに使用できる完全に合成されたデータセットの開発に力を入れてきました。
それにもかかわらず、最近の進歩は、実際のデータでトレーニングされた最先端のモデルに匹敵するパフォーマンスを達成するには十分ではありません。
実際のデータセットと合成データセットでトレーニングされたモデルのパフォーマンス間のドリフトを研究するために、大規模属性分類器 (MAC) を利用して、4 つのデータセット (実際のデータセット 2 つと合成データセット 2 つ) に対するアノテーションを作成します。
これらのアノテーションから、4 つのデータセットすべて内の各属性の分布に関する研究を実施します。
さらに、属性セットに関する実際のデータセットと合成データセットの違いをさらに検査します。
カルバック-ライブラー発散を通じて比較すると、本物のサンプルと合成サンプルの間に違いがあることがわかりました。
興味深いことに、実際のサンプルは合成分布を説明するのに十分である一方で、その逆は真実から遠く離れている可能性があることを検証しました。

要約(オリジナル)

Face recognition applications have grown in parallel with the size of datasets, complexity of deep learning models and computational power. However, while deep learning models evolve to become more capable and computational power keeps increasing, the datasets available are being retracted and removed from public access. Privacy and ethical concerns are relevant topics within these domains. Through generative artificial intelligence, researchers have put efforts into the development of completely synthetic datasets that can be used to train face recognition systems. Nonetheless, the recent advances have not been sufficient to achieve performance comparable to the state-of-the-art models trained on real data. To study the drift between the performance of models trained on real and synthetic datasets, we leverage a massive attribute classifier (MAC) to create annotations for four datasets: two real and two synthetic. From these annotations, we conduct studies on the distribution of each attribute within all four datasets. Additionally, we further inspect the differences between real and synthetic datasets on the attribute set. When comparing through the Kullback-Leibler divergence we have found differences between real and synthetic samples. Interestingly enough, we have verified that while real samples suffice to explain the synthetic distribution, the opposite could not be further from being true.

arxiv情報

著者 Pedro C. Neto,Rafael M. Mamede,Carolina Albuquerque,Tiago Gonçalves,Ana F. Sequeira
発行日 2024-04-23 17:10:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク