NRGBoost: Energy-Based Generative Boosted Trees

要約

構造化されていないデータドメインにおける深い学習の支配が高まっているにもかかわらず、ランダムフォレスト(RF)や勾配ブーストされた決定ツリー(GBDT)などのツリーベースの方法は、依然として表形式データの識別タスクを処理するための主力です。
データ密度を明示的にモデル化することに焦点を当てたこれらの一般的なアルゴリズムの生成的拡張機能(正規化定数まで)を検討するため、サンプリング以外に他のアプリケーションを可能にします。
主な貢献として、Xgboostなどの人気ライブラリに実装されている2次ブーストに類似したエネルギーベースの生成ブーストアルゴリズムを提案します。
任意の入力変数を介して推論タスクを処理できる生成モデルを作成したにもかかわらず、提案されたアルゴリズムは、多くの現実世界の表形式データセットでGBDTと同様の識別パフォーマンスを達成できることを示しています。
同時に、サンプリングのためにニューラルネットワークベースのモデルとも競争力があることを示します。
コードはhttps://github.com/ajoo/nrgboostで入手できます。

要約(オリジナル)

Despite the rise to dominance of deep learning in unstructured data domains, tree-based methods such as Random Forests (RF) and Gradient Boosted Decision Trees (GBDT) are still the workhorses for handling discriminative tasks on tabular data. We explore generative extensions of these popular algorithms with a focus on explicitly modeling the data density (up to a normalization constant), thus enabling other applications besides sampling. As our main contribution we propose an energy-based generative boosting algorithm that is analogous to the second-order boosting implemented in popular libraries like XGBoost. We show that, despite producing a generative model capable of handling inference tasks over any input variable, our proposed algorithm can achieve similar discriminative performance to GBDT on a number of real world tabular datasets, outperforming alternative generative approaches. At the same time, we show that it is also competitive with neural-network-based models for sampling. Code is available at https://github.com/ajoo/nrgboost.

arxiv情報

著者 João Bravo
発行日 2025-04-18 17:36:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク