要約
非構造化データ領域におけるディープラーニングの台頭にもかかわらず、ランダムフォレスト(RF)や勾配ブースティング決定木(GBDT)のような木ベースの手法は、表形式データの識別タスクを処理するための主力である。我々は、データ密度を(正規化定数まで)明示的にモデル化することに焦点を当て、サンプリング以外のアプリケーションを可能にする、これらの一般的なアルゴリズムの生成的な拡張を探求する。我々の主な貢献として、XGBoostのような一般的なパッケージで実装されている2次ブースティングに類似した、エネルギーベースの生成的ブースティング・アルゴリズムを提案する。あらゆる入力変数に対する推論タスクを処理可能な生成モデルを生成するにもかかわらず、我々の提案するアルゴリズムが、多くの実世界の表データセットにおいてGBDTと同様の識別性能を達成し、代替の生成アプローチを凌駕することを示す。同時に、サンプリングに関しても、ニューラルネットワークベースのモデルに引けを取らないことを示す。
要約(オリジナル)
Despite the rise to dominance of deep learning in unstructured data domains, tree-based methods such as Random Forests (RF) and Gradient Boosted Decision Trees (GBDT) are still the workhorses for handling discriminative tasks on tabular data. We explore generative extensions of these popular algorithms with a focus on explicitly modeling the data density (up to a normalization constant), thus enabling other applications besides sampling. As our main contribution we propose an energy-based generative boosting algorithm that is analogous to the second order boosting implemented in popular packages like XGBoost. We show that, despite producing a generative model capable of handling inference tasks over any input variable, our proposed algorithm can achieve similar discriminative performance to GBDT on a number of real world tabular datasets, outperforming alternative generative approaches. At the same time, we show that it is also competitive with neural network based models for sampling.
arxiv情報
著者 | João Bravo |
発行日 | 2024-10-04 15:54:02+00:00 |
arxivサイト | arxiv_id(pdf) |