Real-Fake: Effective Training Data Synthesis Through Distribution Matching

要約

合成トレーニング データは、数多くの学習タスクやシナリオで注目を集めており、データセットの増強、汎化評価、プライバシー保護などの利点をもたらします。
これらの利点にもかかわらず、高度な深層モデルのみをトレーニングする場合、現在の方法論によって生成された合成データの効率は依然として劣っており、その実用性は限られています。
この課題に対処するために、教師あり学習のトレーニング データ合成の基礎となる原理を分析し、合成の有効性を支配するメカニズムを説明する分布マッチングの観点から原理的な理論的枠組みを解明します。
広範な実験を通じて、実際のデータセットの代替および拡張の両方として、さまざまな画像分類タスクにわたる合成データの有効性を実証するとともに、配布外の一般化、プライバシー保護、スケーラビリティなどのメリットも実証しました。
具体的には、元の実データ サイズの 1 倍に相当する合成データのみを使用してトレーニングした場合、ImageNet1K で 70.9% のトップ 1 分類精度を達成しました。これは、10 倍の合成データにスケールアップすると 76.0% に増加します。

要約(オリジナル)

Synthetic training data has gained prominence in numerous learning tasks and scenarios, offering advantages such as dataset augmentation, generalization evaluation, and privacy preservation. Despite these benefits, the efficiency of synthetic data generated by current methodologies remains inferior when training advanced deep models exclusively, limiting its practical utility. To address this challenge, we analyze the principles underlying training data synthesis for supervised learning and elucidate a principled theoretical framework from the distribution-matching perspective that explicates the mechanisms governing synthesis efficacy. Through extensive experiments, we demonstrate the effectiveness of our synthetic data across diverse image classification tasks, both as a replacement for and augmentation to real datasets, while also benefits such as out-of-distribution generalization, privacy preservation, and scalability. Specifically, we achieve 70.9% top1 classification accuracy on ImageNet1K when training solely with synthetic data equivalent to 1 X the original real data size, which increases to 76.0% when scaling up to 10 X synthetic data.

arxiv情報

著者 Jianhao Yuan,Jie Zhang,Shuyang Sun,Philip Torr,Bo Zhao
発行日 2024-03-20 12:52:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク