An improved tabular data generator with VAE-GMM integration

要約

さまざまな分野で機械学習の使用が増加しているため、合成表データを作成するための堅牢な方法が必要です。
データは、データ不足の課題に対処しながら、重要な特性を保持する必要があります。
最先端の CTGAN モデルなど、敵対的生成ネットワークに基づく現在のアプローチは、表形式データに固有の複雑な構造に苦戦しています。
これらのデータには、非ガウス分布を持つ連続特徴と離散特徴の両方が含まれることがよくあります。
したがって、これらの制限に対処する新しい変分オートエンコーダー (VAE) ベースのモデルを提案します。
TVAE モデルに触発された私たちのアプローチには、VAE アーキテクチャ内にベイジアン ガウス混合モデル (BGM) が組み込まれています。
これにより、厳密にガウス潜在空間を仮定することによって課せられる制限が回避され、データ生成中に基礎となるデータ分布をより正確に表現できるようになります。
さらに、私たちのモデルは、個々の特徴に対してさまざまな微分可能な分布を使用できるようにすることで柔軟性を高め、連続データ型と離散データ型の両方を処理できるようにします。
私たちは、類似性と有用性に基づいて、2 つの医療関連データを含む混合データ タイプを含む 3 つの現実世界のデータセットでモデルを徹底的に検証します。
この評価は、CTGAN および TVAE に対して大幅に優れたパフォーマンスを示しており、さまざまなドメイン、特に医療分野で合成表形式データを生成する貴重なツールとしての可能性を確立しています。

要約(オリジナル)

The rising use of machine learning in various fields requires robust methods to create synthetic tabular data. Data should preserve key characteristics while addressing data scarcity challenges. Current approaches based on Generative Adversarial Networks, such as the state-of-the-art CTGAN model, struggle with the complex structures inherent in tabular data. These data often contain both continuous and discrete features with non-Gaussian distributions. Therefore, we propose a novel Variational Autoencoder (VAE)-based model that addresses these limitations. Inspired by the TVAE model, our approach incorporates a Bayesian Gaussian Mixture model (BGM) within the VAE architecture. This avoids the limitations imposed by assuming a strictly Gaussian latent space, allowing for a more accurate representation of the underlying data distribution during data generation. Furthermore, our model offers enhanced flexibility by allowing the use of various differentiable distributions for individual features, making it possible to handle both continuous and discrete data types. We thoroughly validate our model on three real-world datasets with mixed data types, including two medically relevant ones, based on their resemblance and utility. This evaluation demonstrates significant outperformance against CTGAN and TVAE, establishing its potential as a valuable tool for generating synthetic tabular data in various domains, particularly in healthcare.

arxiv情報

著者 Patricia A. Apellániz,Juan Parras,Santiago Zazo
発行日 2024-04-12 12:31:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.1 パーマリンク