On the Usefulness of Synthetic Tabular Data Generation

要約

合成データ生成における最近の進歩にもかかわらず、科学界はその有用性についての統一されたコンセンサスをまだ持っていません。
合成データは、データ交換と機械学習 (ML) トレーニングの強化の両方に使用できると一般的に考えられています。
プライバシーを保護した合成データの生成により、下流タスクのデータ交換が高速化されますが、合成データが ML トレーニングをどのように、またはなぜ促進できるかを示す十分な証拠はありません。
この調査では、データ共有、データ拡張、クラス バランシング、データ要約の 4 つのユース ケースについて、合成表形式データを使用して ML パフォーマンスのベンチマークを実施しました。
一部のデータセットでは、バランシングのユースケースでわずかな改善が見られました。
ただし、合成表形式データが ML トレーニングに役立つと主張するには十分な証拠がないと結論付けています。

要約(オリジナル)

Despite recent advances in synthetic data generation, the scientific community still lacks a unified consensus on its usefulness. It is commonly believed that synthetic data can be used for both data exchange and boosting machine learning (ML) training. Privacy-preserving synthetic data generation can accelerate data exchange for downstream tasks, but there is not enough evidence to show how or why synthetic data can boost ML training. In this study, we benchmarked ML performance using synthetic tabular data for four use cases: data sharing, data augmentation, class balancing, and data summarization. We observed marginal improvements for the balancing use case on some datasets. However, we conclude that there is not enough evidence to claim that synthetic tabular data is useful for ML training.

arxiv情報

著者 Dionysis Manousakas,Sergül Aydöre
発行日 2023-06-27 17:26:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク