CoDi: Co-evolving Contrastive Diffusion Models for Mixed-type Tabular Synthesis

要約

最近、表形式データへの注目が高まっているため、合成テーブルをさまざまなタスクに適用する試みが、さまざまなシナリオに向けて拡大されています。
最近の生成モデリングの進歩により、表形式のデータ合成モデルによって生成される偽のデータは洗練され、現実的になりました。
ただし、表形式データの離散変数 (列) をモデル化する際には依然として困難が存在します。
この研究では、2 つの拡散モデルによって連続変数と離散変数を別々に (ただし相互に条件付けながら) 処理することを提案します。
2 つの拡散モデルは、トレーニング中に相互に条件を読み取ることによって共進化します。
さらに、拡散モデルをさらに結合するために、ネガティブ サンプリング法による対照学習法を導入します。
11 の実世界の表形式データセットと 8 つのベースライン手法を用いた実験で、CoDi と呼ばれる提案された手法の有効性を証明しました。

要約(オリジナル)

With growing attention to tabular data these days, the attempt to apply a synthetic table to various tasks has been expanded toward various scenarios. Owing to the recent advances in generative modeling, fake data generated by tabular data synthesis models become sophisticated and realistic. However, there still exists a difficulty in modeling discrete variables (columns) of tabular data. In this work, we propose to process continuous and discrete variables separately (but being conditioned on each other) by two diffusion models. The two diffusion models are co-evolved during training by reading conditions from each other. In order to further bind the diffusion models, moreover, we introduce a contrastive learning method with a negative sampling method. In our experiments with 11 real-world tabular datasets and 8 baseline methods, we prove the efficacy of the proposed method, called CoDi.

arxiv情報

著者 Chaejeong Lee,Jayoung Kim,Noseong Park
発行日 2023-09-21 13:40:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク