Improving GBDT Performance on Imbalanced Datasets: An Empirical Study of Class-Balanced Loss Functions

要約

クラスの不均衡は、機械学習、特に表形式のデータ分類タスクにおいて依然として大きな課題です。
勾配ブースティング デシジョン ツリー (GBDT) モデルは、このようなタスクに対して非常に効果的であることが証明されていますが、不均衡なデータセットを処理するとパフォーマンスが低下する可能性があります。
この論文では、バイナリ分類、マルチクラス分類、およびマルチラベル分類を含むさまざまな表形式の分類タスクにわたって、クラスバランス損失関数を 3 つの GBDT アルゴリズムに適応させることに関する最初の包括的な研究を紹介します。
私たちは、さまざまな GBDT モデルに対するクラスバランス損失の影響を評価するために、複数のデータセットに対して広範な実験を実施し、貴重なベンチマークを確立します。
私たちの結果は、不均衡なデータセットでの GBDT パフォーマンスを向上させるクラスバランス損失関数の可能性を示しており、現実世界のアプリケーションでクラス不均衡の課題に直面している実務者に堅牢なアプローチを提供します。
さらに、クラスバランス損失関数の GBDT ワークフローへの統合を容易にする Python パッケージを導入し、これらの高度なテクニックをより幅広いユーザーが利用できるようにします。

要約(オリジナル)

Class imbalance remains a significant challenge in machine learning, particularly for tabular data classification tasks. While Gradient Boosting Decision Trees (GBDT) models have proven highly effective for such tasks, their performance can be compromised when dealing with imbalanced datasets. This paper presents the first comprehensive study on adapting class-balanced loss functions to three GBDT algorithms across various tabular classification tasks, including binary, multi-class, and multi-label classification. We conduct extensive experiments on multiple datasets to evaluate the impact of class-balanced losses on different GBDT models, establishing a valuable benchmark. Our results demonstrate the potential of class-balanced loss functions to enhance GBDT performance on imbalanced datasets, offering a robust approach for practitioners facing class imbalance challenges in real-world applications. Additionally, we introduce a Python package that facilitates the integration of class-balanced loss functions into GBDT workflows, making these advanced techniques accessible to a wider audience.

arxiv情報

著者 Jiaqi Luo,Yuan Yuan,Shixin Xu
発行日 2024-07-19 15:10:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク