Generating and Imputing Tabular Data via Diffusion and Flow-based Gradient-Boosted Trees

要約

表形式のデータは取得が難しく、欠損値が発生する可能性があります。
この論文では、スコアベースの拡散と条件付きフロー マッチングを使用して、混合タイプ (連続的およびカテゴリカル) の表形式データを生成および入力するための新しいアプローチを提案します。
スコア関数またはベクトル場を学習するためにニューラル ネットワークに依存する以前の研究とは対照的に、代わりに、人気のある勾配ブースト ツリー (GBT) メソッドである XGBoost に依存します。
私たちは、27 の異なるデータセットで、私たちのアプローチが、i) トレーニング データセットがクリーンな場合、または欠損データによって汚染されている場合に、非常に現実的な合成データを生成すること、および ii) 多様で妥当なデータ補完を生成することを経験的に示しています。
さらに、私たちの方法はデータ生成において深層学習生成方法よりも優れており、データ代入においても競争力があります。
最後に、GPU を必要とせずに、CPU を使用して並列トレーニングできます。
簡単にアクセスできるようにするために、Python ライブラリと R パッケージを通じてコードをリリースします。

要約(オリジナル)

Tabular data is hard to acquire and is subject to missing values. This paper proposes a novel approach to generate and impute mixed-type (continuous and categorical) tabular data using score-based diffusion and conditional flow matching. Contrary to previous work that relies on neural networks to learn the score function or the vector field, we instead rely on XGBoost, a popular Gradient-Boosted Tree (GBT) method. We empirically show on 27 different datasets that our approach i) generates highly realistic synthetic data when the training dataset is either clean or tainted by missing data and ii) generates diverse plausible data imputations. Furthermore, our method outperforms deep-learning generation methods on data generation and is competitive on data imputation. Finally, it can be trained in parallel using CPUs without the need for a GPU. To make it easily accessible, we release our code through a Python library and an R package.

arxiv情報

著者 Alexia Jolicoeur-Martineau,Kilian Fatras,Tal Kachman
発行日 2023-11-24 15:33:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク