TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation

要約

高品質の表形式データの合成は、データセットの増強からプライバシー保護に至るまで、多くのデータ サイエンス タスクにおいて重要なトピックです。
ただし、表形式データの表現力豊かな生成モデルの開発は、その固有の異種データ型、複雑な相互相関、および複雑な列方向の分布のため、困難です。
このペーパーでは、表形式データのすべてのマルチモーダル分布を 1 つのモデルでモデル化する共同拡散フレームワークである TabDiff を紹介します。
私たちの主なイノベーションは、数値データとカテゴリデータの共同連続時間拡散プロセスの開発であり、さまざまな特徴分布の大きな不均衡に対抗する特徴ごとの学習可能な拡散プロセスを提案します。
TabDiff は、さまざまな入力タイプを処理するトランスフォーマーによってパラメータ化され、フレームワーク全体をエンドツーエンドの方法で効率的に最適化できます。
さらに、サンプリング中に蓄積されたデコード誤差を自動的に修正するマルチモーダル確率サンプラーを導入し、条件付き欠損列値補完のための分類子を使用しないガイダンスを提案します。
7 つのデータセットに対する包括的な実験により、TabDiff が 8 つのメトリックすべてにわたって既存の競合ベースラインを上回る優れた平均パフォーマンスを達成し、ペアごとの列相関推定において最先端のモデルよりも最大 $22.5\%$ の改善が見られることが実証されました。
コードは https://github.com/MinkaiXu/TabDiff で入手できます。

要約(オリジナル)

Synthesizing high-quality tabular data is an important topic in many data science tasks, ranging from dataset augmentation to privacy protection. However, developing expressive generative models for tabular data is challenging due to its inherent heterogeneous data types, complex inter-correlations, and intricate column-wise distributions. In this paper, we introduce TabDiff, a joint diffusion framework that models all multi-modal distributions of tabular data in one model. Our key innovation is the development of a joint continuous-time diffusion process for numerical and categorical data, where we propose feature-wise learnable diffusion processes to counter the high disparity of different feature distributions. TabDiff is parameterized by a transformer handling different input types, and the entire framework can be efficiently optimized in an end-to-end fashion. We further introduce a multi-modal stochastic sampler to automatically correct the accumulated decoding error during sampling, and propose classifier-free guidance for conditional missing column value imputation. Comprehensive experiments on seven datasets demonstrate that TabDiff achieves superior average performance over existing competitive baselines across all eight metrics, with up to $22.5\%$ improvement over the state-of-the-art model on pair-wise column correlation estimations. Code is available at https://github.com/MinkaiXu/TabDiff.

arxiv情報

著者 Juntong Shi,Minkai Xu,Harper Hua,Hengrui Zhang,Stefano Ermon,Jure Leskovec
発行日 2024-10-29 17:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク