Real-Fake: Effective Training Data Synthesis Through Distribution Matching

要約

合成トレーニング データは、数多くの学習タスクやシナリオで注目を集めており、データセットの増強、汎化評価、プライバシー保護などの利点をもたらします。
これらの利点にもかかわらず、高度な深層モデルのみをトレーニングする場合、現在の方法論によって生成された合成データの効率は依然として劣っており、その実用性は限られています。
この課題に対処するために、教師あり学習のトレーニング データ合成の基礎となる原理を分析し、合成の有効性を支配するメカニズムを説明する分布マッチングの観点から原理的な理論的枠組みを解明します。
広範な実験を通じて、実際のデータセットの代替および拡張の両方として、さまざまな画像分類タスクにわたる合成データの有効性を実証するとともに、配布外の一般化やプライバシー保護などの困難なタスクにもメリットをもたらします。

要約(オリジナル)

Synthetic training data has gained prominence in numerous learning tasks and scenarios, offering advantages such as dataset augmentation, generalization evaluation, and privacy preservation. Despite these benefits, the efficiency of synthetic data generated by current methodologies remains inferior when training advanced deep models exclusively, limiting its practical utility. To address this challenge, we analyze the principles underlying training data synthesis for supervised learning and elucidate a principled theoretical framework from the distribution-matching perspective that explicates the mechanisms governing synthesis efficacy. Through extensive experiments, we demonstrate the effectiveness of our synthetic data across diverse image classification tasks, both as a replacement for and augmentation to real datasets, while also benefits challenging tasks such as out-of-distribution generalization and privacy preservation.

arxiv情報

著者 Jianhao Yuan,Jie Zhang,Shuyang Sun,Philip Torr,Bo Zhao
発行日 2023-10-16 13:45:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク