On Learning Representations for Tabular Data Distillation

要約

データセットの蒸留により、大きなデータセットから情報が豊富なインスタンスの小さなセットが生成され、その結果、ストレージ要件、プライバシーまたは著作権のリスク、および下流モデリングの計算コストが削減されますが、調査の多くは画像データモダリティに焦点を当てています。
私たちは、固有の特徴の不均一性や非拡散性学習モデル(意思決定ツリーアンサンブルや最寄りの最近の予測因子など)の一般的な使用などの新しい課題をもたらす表形式のデータ蒸留を研究します。
これらの課題を軽減するために、列の埋め込みベースの表現学習を介して表形式のデータ蒸留フレームワークである$ \ texttt {tdcoler} $を提示します。
このフレームワークを評価するために、表形式のデータ蒸留ベンチマーク$ {{\ sf \ small tdbench}} $も表示します。
$ {{\ sf \ small tdbench}} $の精巧な評価に基づいて、226,890の蒸留データセットと548,880モデルに訓練された548,880モデルになります。
– 7つの異なる表形式学習モデルで0.5〜143%の既製の蒸留スキーム。

要約(オリジナル)

Dataset distillation generates a small set of information-rich instances from a large dataset, resulting in reduced storage requirements, privacy or copyright risks, and computational costs for downstream modeling, though much of the research has focused on the image data modality. We study tabular data distillation, which brings in novel challenges such as the inherent feature heterogeneity and the common use of non-differentiable learning models (such as decision tree ensembles and nearest-neighbor predictors). To mitigate these challenges, we present $\texttt{TDColER}$, a tabular data distillation framework via column embeddings-based representation learning. To evaluate this framework, we also present a tabular data distillation benchmark, ${{\sf \small TDBench}}$. Based on an elaborate evaluation on ${{\sf \small TDBench}}$, resulting in 226,890 distilled datasets and 548,880 models trained on them, we demonstrate that $\texttt{TDColER}$ is able to boost the distilled data quality of off-the-shelf distillation schemes by 0.5-143% across 7 different tabular learning models.

arxiv情報

著者 Inwon Kang,Parikshit Ram,Yi Zhou,Horst Samulowitz,Oshani Seneviratne
発行日 2025-01-23 18:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク