AutoDiff: combining Auto-encoder and Diffusion model for tabular data synthesizing

要約

拡散モデルは、コンピューター ビジョン、言語モデル、音声合成など、現代の機械学習の多くのサブフィールドにおける合成データ生成の主要なパラダイムとなっています。
このペーパーでは、拡散モデルの力を利用して合成表データを生成します。
表形式データの異質な特徴は表形式データ合成における主な障害となっており、私たちは自動エンコーダ アーキテクチャを採用することでこの問題に取り組みます。
最先端の表形式シンセサイザーと比較した場合、私たちのモデルから得られる合成テーブルは実際のデータに対して優れた統計的忠実性を示し、機械学習ユーティリティの下流タスクで良好なパフォーマンスを発揮します。
私たちは 15 ドルの公開データセットを使用して実験を実施しました。
特に、私たちのモデルは、表形式データ合成における長年の課題である特徴間の相関関係を適切に捉えています。
私たちのコードは https://github.com/UCLA-Trustworthy-AI-Lab/AutoDiffusion で入手できます。

要約(オリジナル)

Diffusion model has become a main paradigm for synthetic data generation in many subfields of modern machine learning, including computer vision, language model, or speech synthesis. In this paper, we leverage the power of diffusion model for generating synthetic tabular data. The heterogeneous features in tabular data have been main obstacles in tabular data synthesis, and we tackle this problem by employing the auto-encoder architecture. When compared with the state-of-the-art tabular synthesizers, the resulting synthetic tables from our model show nice statistical fidelities to the real data, and perform well in downstream tasks for machine learning utilities. We conducted the experiments over $15$ publicly available datasets. Notably, our model adeptly captures the correlations among features, which has been a long-standing challenge in tabular data synthesis. Our code is available at https://github.com/UCLA-Trustworthy-AI-Lab/AutoDiffusion.

arxiv情報

著者 Namjoon Suh,Xiaofeng Lin,Din-Yin Hsieh,Merhdad Honarkhah,Guang Cheng
発行日 2023-11-17 03:24:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク