TabEBM: A Tabular Data Augmentation Method with Distinct Class-Specific Energy-Based Models

要約

医学、物理学、化学などの重要な分野では、データ収集が困難なことがよくあります。
その結果、通常、これらの小さなデータセットでは分類方法のパフォーマンスが低下し、予測パフォーマンスが低下します。
画像のデータ拡張と同様に、追加の合成データでトレーニング セットを増やすと、下流の分類パフォーマンスが向上すると一般に考えられています。
ただし、同時分布 $ p(\mathbf{x}, y) $ またはクラス条件付き分布 $ p(\mathbf{x} \mid y) $ のいずれかを学習する現在の表形式の生成手法は、小さなデータセットで過学習することが多く、その結果、
低品質の合成データでは、通常、実際のデータを単独で使用する場合と比較して分類パフォーマンスが低下します。
これらの課題を解決するために、エネルギーベース モデル (EBM) を使用した新しいクラス条件付き生成手法である TabEBM を紹介します。
共有モデルを使用してすべてのクラス条件付き密度を近似する既存の方法とは異なり、私たちの主な革新は、クラスごとに個別の EBM 生成モデルを作成し、それぞれがクラス固有のデータ分布を個別にモデル化することです。
このアプローチは、あいまいなクラス分布であっても、堅牢なエネルギーランドスケープを作成します。
私たちの実験では、TabEBM が既存の方法よりも高品質で統計的忠実度の高い合成データを生成することがわかりました。
データ拡張に使用すると、当社の合成データは、さまざまなサイズの多様なデータセット、特に小規模なデータセットにわたる分類パフォーマンスを一貫して向上させます。

要約(オリジナル)

Data collection is often difficult in critical fields such as medicine, physics, and chemistry. As a result, classification methods usually perform poorly with these small datasets, leading to weak predictive performance. Increasing the training set with additional synthetic data, similar to data augmentation in images, is commonly believed to improve downstream classification performance. However, current tabular generative methods that learn either the joint distribution $ p(\mathbf{x}, y) $ or the class-conditional distribution $ p(\mathbf{x} \mid y) $ often overfit on small datasets, resulting in poor-quality synthetic data, usually worsening classification performance compared to using real data alone. To solve these challenges, we introduce TabEBM, a novel class-conditional generative method using Energy-Based Models (EBMs). Unlike existing methods that use a shared model to approximate all class-conditional densities, our key innovation is to create distinct EBM generative models for each class, each modelling its class-specific data distribution individually. This approach creates robust energy landscapes, even in ambiguous class distributions. Our experiments show that TabEBM generates synthetic data with higher quality and better statistical fidelity than existing methods. When used for data augmentation, our synthetic data consistently improves the classification performance across diverse datasets of various sizes, especially small ones.

arxiv情報

著者 Andrei Margeloiu,Xiangjian Jiang,Nikola Simidjievski,Mateja Jamnik
発行日 2024-09-24 14:25:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク