要約
変換器は表形式データ生成において目覚ましい成功を収めている。しかし、表形式データの本質的な特性を保持するために重要な、ドメイン固有の誘導バイアスが欠けている。一方、2次関数的な計算複雑さにより、スケーラビリティと効率の悪さに悩まされている。本論文では、TabTreeFormerを提案する。TabTreeFormerは、離散性と非回転不変性により、非平滑で潜在的に相関の低いパターンの表形式特有の帰納バイアスを保持するツリーベースのモデルを組み込んだハイブリッド変換器アーキテクチャであり、合成データの忠実性と有用性を高める。さらに、マルチモーダルな連続分布を捕捉し、数値分布の学習をさらに促進するために、二重量子化トークナイザを考案する。さらに、我々の提案するトークナイザーは、表形式データの限られた次元的意味と学習セットサイズに起因する語彙サイズと配列長を削減し、変換モデルの能力を犠牲にすることなく、モデルサイズの大幅な縮小を実現する。TabTreeFormerを10のデータセットで複数の生成モデルと比較し、様々な指標で評価した。実験結果は、TabTreeFormerが優れた忠実度、有用性、プライバシー、効率性を達成することを示している。我々の最良のモデルは、ベースラインモデルサイズの1/16で40%の実用性の向上をもたらす。
要約(オリジナル)
Transformers have achieved remarkable success in tabular data generation. However, they lack domain-specific inductive biases which are critical to preserving the intrinsic characteristics of tabular data. Meanwhile, they suffer from poor scalability and efficiency due to quadratic computational complexity. In this paper, we propose TabTreeFormer, a hybrid transformer architecture that incorporates a tree-based model that retains tabular-specific inductive biases of non-smooth and potentially low-correlated patterns due to its discreteness and non-rotational invariance, and hence enhances the fidelity and utility of synthetic data. In addition, we devise a dual-quantization tokenizer to capture the multimodal continuous distribution and further facilitate the learning of numerical value distribution. Moreover, our proposed tokenizer reduces the vocabulary size and sequence length due to the limited dimension-wise semantic meaning and training set size of tabular data, rendering a significant model size shrink without sacrificing the capability of the transformer model. We evaluate TabTreeFormer on 10 datasets against multiple generative models on various metrics; our experimental results show that TabTreeFormer achieves superior fidelity, utility, privacy, and efficiency. Our best model yields a 40% utility improvement with 1/16 of the baseline model size.
arxiv情報
著者 | Jiayu Li,Bingyin Zhao,Zilong Zhao,Kevin Yee,Uzair Javaid,Yingjie Lao,Biplab Sikdar |
発行日 | 2025-01-03 15:58:31+00:00 |
arxivサイト | arxiv_id(pdf) |