要約
表形式のデータは、最も一般的なデータ形式の 1 つです。
データ生成に関しては、多くのアプローチがデータ生成プロセスの密度を学習しますが、必ずしもサンプラーで終わるわけではなく、基礎となる密度に関してはさらに正確ではありません。
2 番目の問題はモデルに関するものです。ニューラル ネットワークに基づく複雑なモデリングは画像やテキストの生成 (など) で盛んですが、表形式データの強力な生成モデルについてはあまり知られていません。
3 番目の問題は、顕著な特性 (ブースティングなど) を備えた教師あり学習のトレーニング アルゴリズム間の表形式データ上の目に見える溝と、データ生成に関して保証が比較的不足していることです。
この論文では、最近の提案のモデリング機能を改善する密度モデリングと表形式データ生成に便利な新しいツリーベースの生成モデルの導入、および以前のアプローチのトレーニング設定を簡素化しブースティングを表示するトレーニング アルゴリズムの 3 つの問題に取り組みます。
準拠したコンバージェンス。
このアルゴリズムには、2 つのクラスによる決定木誘導の最も一般的な誘導スキームにいくつかの調整を加えることで実装できる教師ありトレーニング スキームに依存するという便利な特性があります。
欠損データの補完と、生成されたデータと実際のデータの比較に関する実験が提供され、特に最先端技術と比較して、私たちのアプローチによって得られた結果の品質を示します。
要約(オリジナル)
Tabular data represents one of the most prevalent form of data. When it comes to data generation, many approaches would learn a density for the data generation process, but would not necessarily end up with a sampler, even less so being exact with respect to the underlying density. A second issue is on models: while complex modeling based on neural nets thrives in image or text generation (etc.), less is known for powerful generative models on tabular data. A third problem is the visible chasm on tabular data between training algorithms for supervised learning with remarkable properties (e.g. boosting), and a comparative lack of guarantees when it comes to data generation. In this paper, we tackle the three problems, introducing new tree-based generative models convenient for density modeling and tabular data generation that improve on modeling capabilities of recent proposals, and a training algorithm which simplifies the training setting of previous approaches and displays boosting-compliant convergence. This algorithm has the convenient property to rely on a supervised training scheme that can be implemented by a few tweaks to the most popular induction scheme for decision tree induction with two classes. Experiments are provided on missing data imputation and comparing generated data to real data, displaying the quality of the results obtained by our approach, in particular against state of the art.
arxiv情報
| 著者 | Richard Nock,Mathieu Guillame-Bert |
| 発行日 | 2023-08-07 14:58:53+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google