要約
表形式のデータは、最も広く普及しているモダリティの 1 つですが、表形式の生成基盤モデルに関する文献は、テキストやビジョンに比べてはるかに遅れています。
このようなモデルの作成は、さまざまな表形式のデータセット、表形式のメタデータ (データセットの説明や特徴ヘッダーなど)、および事前知識のない表 (特徴の順序など) の異質な特徴空間があるため、困難です。
この研究では、これらの課題に対処し、さまざまなデータセット間でトレーニングできる新しい表形式の拡散モデルである LaTable を提案します。
広範な実験を通じて、LaTable が分布内生成のベースラインを上回るパフォーマンスを示し、LaTable を微調整すると、少ないサンプルでより適切に分布外のデータセットを生成できることがわかりました。
一方で、LaTable のゼロショット パフォーマンスの低さ、およびより優れたゼロショットおよび少数ショット生成機能を備えた生成表形式基礎モデルの構築について LaTable が何を教えてくれるかを探ります。
要約(オリジナル)
Tabular data is one of the most ubiquitous modalities, yet the literature on tabular generative foundation models is lagging far behind its text and vision counterparts. Creating such a model is hard, due to the heterogeneous feature spaces of different tabular datasets, tabular metadata (e.g. dataset description and feature headers), and tables lacking prior knowledge (e.g. feature order). In this work we propose LaTable: a novel tabular diffusion model that addresses these challenges and can be trained across different datasets. Through extensive experiments we find that LaTable outperforms baselines on in-distribution generation, and that finetuning LaTable can generate out-of-distribution datasets better with fewer samples. On the other hand, we explore the poor zero-shot performance of LaTable, and what it may teach us about building generative tabular foundation models with better zero- and few-shot generation capabilities.
arxiv情報
著者 | Boris van Breugel,Jonathan Crabbé,Rob Davis,Mihaela van der Schaar |
発行日 | 2024-06-25 16:03:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google