Benchmarking state-of-the-art gradient boosting algorithms for classification

要約

この研究では、分類のコンテキストでの勾配ブースティングの使用を検討します。
オリジナルの GBM アルゴリズムと厳選された最先端の勾配ブースティング フレームワーク (つまり、XGBoost、LightGBM、CatBoost) を含む 4 つの一般的な実装が、十分な多様性を持ついくつかの公開されている現実世界のデータセットで徹底的に比較されました。
この研究では、ハイパーパラメータの最適化に特に重点が置かれ、特に 2 つの調整戦略、つまりランダム化検索とツリー構造パルゼン推定器を使用したベイジアン最適化を比較しました。
考慮されたメソッドのパフォーマンスは、一般的な分類精度メトリクス、実行時間、チューニング時間の観点から調査されました。
さらに、得られた結果は、適切な統計テストを使用して検証されています。
有効性、信頼性、使いやすさの適切なバランスを示す勾配ブースティングのバリエーションを示す試みが行われました。

要約(オリジナル)

This work explores the use of gradient boosting in the context of classification. Four popular implementations, including original GBM algorithm and selected state-of-the-art gradient boosting frameworks (i.e. XGBoost, LightGBM and CatBoost), have been thoroughly compared on several publicly available real-world datasets of sufficient diversity. In the study, special emphasis was placed on hyperparameter optimization, specifically comparing two tuning strategies, i.e. randomized search and Bayesian optimization using the Tree-stuctured Parzen Estimator. The performance of considered methods was investigated in terms of common classification accuracy metrics as well as runtime and tuning time. Additionally, obtained results have been validated using appropriate statistical testing. An attempt was made to indicate a gradient boosting variant showing the right balance between effectiveness, reliability and ease of use.

arxiv情報

著者 Piotr Florek,Adam Zagdański
発行日 2023-05-26 17:06:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62H30, cs.LG パーマリンク