AugGen: Synthetic Augmentation Can Improve Discriminative Models

要約

機械学習における大規模なデータセットへの依存の増加は、大きなプライバシーと倫理的課題をもたらします。
合成データ生成は有望なソリューションを提供します。
ただし、ほとんどの現在の方法は、外部データセットまたは事前に訓練されたモデルに依存しており、複雑さを追加し、リソースの需要をエスカレートします。
この作業では、ターゲットデータセットでのみ訓練された条件付き生成モデルから戦略的にサンプルする新しい自己完結型の合成増強技術を紹介します。
このアプローチは、補助データソースの必要性を排除します。
表面認識データセットに適用されるこの方法は、IJB-CおよびIJB-Bベンチマークで1-12 \%のパフォーマンスの改善を達成します。
実際のデータのみでトレーニングされたモデルよりも優れており、最先端の合成データ生成ベースラインのパフォーマンスを超えています。
特に、これらの強化は、しばしば建築の改善を通じて達成されたものを上回り、データスカース環境での合成増強の重要な影響を強調しています。
これらの調査結果は、慎重に統合された合成データがプライバシーとリソースの制約に対処するだけでなく、モデルのパフォーマンスを大幅に向上させることを示しています。
プロジェクトページhttps://parsa-ra.github.io/auggen

要約(オリジナル)

The increasing dependence on large-scale datasets in machine learning introduces significant privacy and ethical challenges. Synthetic data generation offers a promising solution; however, most current methods rely on external datasets or pre-trained models, which add complexity and escalate resource demands. In this work, we introduce a novel self-contained synthetic augmentation technique that strategically samples from a conditional generative model trained exclusively on the target dataset. This approach eliminates the need for auxiliary data sources. Applied to face recognition datasets, our method achieves 1–12\% performance improvements on the IJB-C and IJB-B benchmarks. It outperforms models trained solely on real data and exceeds the performance of state-of-the-art synthetic data generation baselines. Notably, these enhancements often surpass those achieved through architectural improvements, underscoring the significant impact of synthetic augmentation in data-scarce environments. These findings demonstrate that carefully integrated synthetic data not only addresses privacy and resource constraints but also substantially boosts model performance. Project page https://parsa-ra.github.io/auggen

arxiv情報

著者 Parsa Rahimi,Damien Teney,Sebastien Marcel
発行日 2025-03-14 16:10:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク