TabRep: a Simple and Effective Continuous Representation for Training Tabular Diffusion Models

要約

拡散モデルは、表形式データ生成の主要な生成モデルです。
ただし、統一されたデータ表現と統一されたデータ表現の下で、モデリングの難問に直面しています。
前者は、1つのモデルで表形式データのすべてのマルチモーダル分布を共同でモデル化するという課題に遭遇します。
後者は、すべての機能の単一の表現を学習することでこれを軽減しますが、現在、ヒューリスティックを除いてまばらな下位エンコードを活用し、追加の計算コストを必要とします。
この作業では、統一された連続表現で訓練された表形式の拡散アーキテクチャであるTabrepを提示することにより、後者に対処します。
表現の設計を動機付けるために、データマニホールドが拡散モデルにどのように影響するかについての幾何学的な洞察を提供します。
私たちの表現の重要な属性は、その密度、名目上の特徴に十分な分離性を提供する柔軟性、および固有の関係を維持する能力で構成されています。
最終的に、Tabrepは、連続データマニホールドの下で表形式拡散モデルをトレーニングするためのシンプルで効果的なアプローチを提供します。
私たちの結果は、Tabrepが幅広い評価スイートで優れたパフォーマンスを達成することを示しています。
プライバシーを維持し、計算上効率を残している間、元のデータセットの下流の品質を超える表形式データを合成する最初のものです。

要約(オリジナル)

Diffusion models have been the predominant generative model for tabular data generation. However, they face the conundrum of modeling under a separate versus a unified data representation. The former encounters the challenge of jointly modeling all multi-modal distributions of tabular data in one model. While the latter alleviates this by learning a single representation for all features, it currently leverages sparse suboptimal encoding heuristics and necessitates additional computation costs. In this work, we address the latter by presenting TabRep, a tabular diffusion architecture trained with a unified continuous representation. To motivate the design of our representation, we provide geometric insights into how the data manifold affects diffusion models. The key attributes of our representation are composed of its density, flexibility to provide ample separability for nominal features, and ability to preserve intrinsic relationships. Ultimately, TabRep provides a simple yet effective approach for training tabular diffusion models under a continuous data manifold. Our results showcase that TabRep achieves superior performance across a broad suite of evaluations. It is the first to synthesize tabular data that exceeds the downstream quality of the original datasets while preserving privacy and remaining computationally efficient.

arxiv情報

著者 Jacob Si,Zijing Ou,Mike Qu,Zhengrui Xiang,Yingzhen Li
発行日 2025-04-08 15:10:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク