How Well Does Your Tabular Generator Learn the Structure of Tabular Data?

要約

不均一な表形式データは、画像やテキストなどの均質なモダリティと比較して、根本的に異なる基礎となるデータ構造のために、生成モデリングにユニークな課題をもたらします。
以前の研究では、生成モデリングの成功を均質なモダリティで表形式ドメインに適応させようとしていましたが、表形式データの効果的なジェネレーターを定義することは未解決の問題のままです。
主な理由の1つは、他のモダリティから継承された評価基準が、表形式の生成モデルが表形式データにエンコードされた一意の構造情報を効果的にキャプチャまたは利用するかどうかを適切に評価できないことが多いことです。
この論文では、一般的な評価フレームワークの限界を慎重に調べ、構造的忠実度をコア評価ディメンションとして位置付ける新しい評価ベンチマークである$ \ textbf {tabstruct} $を導入します。
具体的には、TabStructは、実際のデータおよび合成データにおける因果構造のアラインメントを評価し、表形式の生成モデルが表形式データの構造をどのように効果的に学習するかを直接測定します。
エキスパート検証された因果的グラフィカル構造を持つ7つのデータセットの8つのカテゴリの発電機を使用した広範な実験を通じて、構造的忠実度がタスクに依存しないドメインと存在する評価の次元を提供することを示します。
私たちの調査結果は、表形式のデータ構造の重要性を強調し、より効果的で堅牢な表形式の生成モデルを開発するための実用的なガイダンスを提供します。
コードはhttps://github.com/silencex12138/tabstructで入手できます。

要約(オリジナル)

Heterogeneous tabular data poses unique challenges in generative modelling due to its fundamentally different underlying data structure compared to homogeneous modalities, such as images and text. Although previous research has sought to adapt the successes of generative modelling in homogeneous modalities to the tabular domain, defining an effective generator for tabular data remains an open problem. One major reason is that the evaluation criteria inherited from other modalities often fail to adequately assess whether tabular generative models effectively capture or utilise the unique structural information encoded in tabular data. In this paper, we carefully examine the limitations of the prevailing evaluation framework and introduce $\textbf{TabStruct}$, a novel evaluation benchmark that positions structural fidelity as a core evaluation dimension. Specifically, TabStruct evaluates the alignment of causal structures in real and synthetic data, providing a direct measure of how effectively tabular generative models learn the structure of tabular data. Through extensive experiments using generators from eight categories on seven datasets with expert-validated causal graphical structures, we show that structural fidelity offers a task-independent, domain-agnostic evaluation dimension. Our findings highlight the importance of tabular data structure and offer practical guidance for developing more effective and robust tabular generative models. Code is available at https://github.com/SilenceX12138/TabStruct.

arxiv情報

著者 Xiangjian Jiang,Nikola Simidjievski,Mateja Jamnik
発行日 2025-03-12 14:54:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク