Bridging the Gap: Enhancing the Utility of Synthetic Data via Post-Processing Techniques

要約

深層学習モデルのトレーニングに適したデータセットを取得して注釈を付けることは困難です。
これは多くの場合、退屈で時間のかかる作業となり、研究の進歩を妨げる可能性があります。
しかし、生成モデルは、実世界のデータを置き換えたり、拡張したりできる合成データセットを生成するための有望なソリューションとして浮上しています。
それにもかかわらず、合成データの有効性は、実世界のデータの複雑さと多様性を完全に捉えることができないため制限されます。
この問題に対処するために、私たちは敵対的生成ネットワークを使用して、後で実世界の画像で評価される分類器をトレーニングするための合成データセットを生成する方法を検討します。
合成データセットの品質と多様性を向上させるために、動的サンプル フィルタリング、動的データセット リサイクル、拡張トリックという 3 つの新しい後処理技術を提案します。
さらに、Gap Filler (GaFi) と呼ばれるパイプラインを導入します。これは、これらの技術を最適かつ調整された方法で適用して、実世界のデータの分類精度を最大化します。
私たちの実験では、GaFi が実際の精度スコアとのギャップを、Fashion-MNIST、CIFAR-10、および CIFAR-100 データセットでそれぞれ 2.03%、1.78%、および 3.99% の誤差に効果的に削減することを示しています。
これらの結果は、分類精度スコアにおける新しい最先端技術を表しており、合成データセットの品質向上における後処理技術の有効性を浮き彫りにしています。

要約(オリジナル)

Acquiring and annotating suitable datasets for training deep learning models is challenging. This often results in tedious and time-consuming efforts that can hinder research progress. However, generative models have emerged as a promising solution for generating synthetic datasets that can replace or augment real-world data. Despite this, the effectiveness of synthetic data is limited by their inability to fully capture the complexity and diversity of real-world data. To address this issue, we explore the use of Generative Adversarial Networks to generate synthetic datasets for training classifiers that are subsequently evaluated on real-world images. To improve the quality and diversity of the synthetic dataset, we propose three novel post-processing techniques: Dynamic Sample Filtering, Dynamic Dataset Recycle, and Expansion Trick. In addition, we introduce a pipeline called Gap Filler (GaFi), which applies these techniques in an optimal and coordinated manner to maximise classification accuracy on real-world data. Our experiments show that GaFi effectively reduces the gap with real-accuracy scores to an error of 2.03%, 1.78%, and 3.99% on the Fashion-MNIST, CIFAR-10, and CIFAR-100 datasets, respectively. These results represent a new state of the art in Classification Accuracy Score and highlight the effectiveness of post-processing techniques in improving the quality of synthetic datasets.

arxiv情報

著者 Andrea Lampis,Eugenio Lomurno,Matteo Matteucci
発行日 2023-06-06 16:13:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク