Generative Forests

要約

私たちは、現在でも最も普及しているデータ形式の 1 つである表形式データの生成 AI に焦点を当てています。
私たちの論文では、2 つの重要な貢献を紹介します。そのようなタスクに適した新しい強力なクラスのフォレストベース モデルと、元の弱い/強い教師あり学習設定と同等のブースティング モデルで強力な収束が保証されたシンプルなトレーニング アルゴリズムです。
このアルゴリズムは、2 つのクラスを使用した決定木帰納法 (教師あり学習) の最も一般的な帰納法スキームにいくつかの調整を加えることで実装できます。
生成されたデータの品質に関する実験では、最先端技術と比較して大幅な改善が見られました。
私たちのアルゴリズムは損失を最小限に抑え、モデルの構造により、生成モデルと観測 (部分的に指定された場合でも) を考慮した密度の迅速な推定を必要とする関連タスクに実用的になります。そのようなタスクには、欠損データの代入や密度推定が含まれます。
これらのタスクに関する追加の実験により、私たちのモデルが、ツリー、ニューラル ネット、カーネル、グラフィカル モデルと同じくらい多様な (またはそれらの要素を混合した) モデルに依存しており、さまざまな最先端の手法に特に優れた候補である可能性があることが明らかになりました。

要約(オリジナル)

We focus on generative AI for a type of data that still represent one of the most prevalent form of data: tabular data. Our paper introduces two key contributions: a new powerful class of forest-based models fit for such tasks and a simple training algorithm with strong convergence guarantees in a boosting model that parallels that of the original weak / strong supervised learning setting. This algorithm can be implemented by a few tweaks to the most popular induction scheme for decision tree induction (i.e. supervised learning) with two classes. Experiments on the quality of generated data display substantial improvements compared to the state of the art. The losses our algorithm minimize and the structure of our models make them practical for related tasks that require fast estimation of a density given a generative model and an observation (even partially specified): such tasks include missing data imputation and density estimation. Additional experiments on these tasks reveal that our models can be notably good contenders to diverse state of the art methods, relying on models as diverse as (or mixing elements of) trees, neural nets, kernels or graphical models.

arxiv情報

著者 Richard Nock,Mathieu Guillame-Bert
発行日 2024-11-14 15:06:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.6 パーマリンク