Evaluating XGBoost for Balanced and Imbalanced Data: Application to Fraud Detection

要約

このホワイト ペーパーでは、完全にバランスのとれたものから非常に不均衡なものまで、さまざまなデータセット サイズとクラス分布を考慮して、XGboost のパフォーマンスを評価します。
XGBoost は、その検出性能と速度により、いくつかのベンチマークで際立っているため、評価用に選択されました。
この論文では、不正検出の問題を紹介した後、検出システムまたはバイナリ分類器の評価指標をレビューし、バランスのとれたデータセットと不均衡なデータセットに対してさまざまな指標がどのように機能するかを例を挙げて示しています。
次に、XGBoost の原理を調べます。
データ準備のためのパイプラインを提案し、Vanilla XGBoost をランダム検索で調整された XGBoost と比較します。
ランダム検索の微調整は、10 万サンプルの大規模なデータセットに対して一貫した改善を提供しますが、それぞれ 10 および 1000 サンプルの中規模および小規模のデータセットではそうではありません。
また、予想どおり、XGBoost の認識パフォーマンスは、利用可能なデータが増えるほど向上し、データセットのバランスが崩れるほど検出パフォーマンスが低下します。
陽性サンプルが 50、45、25、および 5 パーセントの分布に対するテストでは、陽性サンプルが 5 パーセントのみの分布で検出性能が最も低下することが示されています。
トレーニング セットのバランスを取るためのサンプリングでは、一貫した改善は得られません。
したがって、今後の作業には、データの不均衡に対処するためのさまざまな手法の体系的な研究と、ラベルの欠如に対処するためのグラフ、オートエンコーダー、敵対的生成法などの他のアプローチの評価が含まれます。

要約(オリジナル)

This paper evaluates XGboost’s performance given different dataset sizes and class distributions, from perfectly balanced to highly imbalanced. XGBoost has been selected for evaluation, as it stands out in several benchmarks due to its detection performance and speed. After introducing the problem of fraud detection, the paper reviews evaluation metrics for detection systems or binary classifiers, and illustrates with examples how different metrics work for balanced and imbalanced datasets. Then, it examines the principles of XGBoost. It proposes a pipeline for data preparation and compares a Vanilla XGBoost against a random search-tuned XGBoost. Random search fine-tuning provides consistent improvement for large datasets of 100 thousand samples, not so for medium and small datasets of 10 and 1 thousand samples, respectively. Besides, as expected, XGBoost recognition performance improves as more data is available, and deteriorates detection performance as the datasets become more imbalanced. Tests on distributions with 50, 45, 25, and 5 percent positive samples show that the largest drop in detection performance occurs for the distribution with only 5 percent positive samples. Sampling to balance the training set does not provide consistent improvement. Therefore, future work will include a systematic study of different techniques to deal with data imbalance and evaluating other approaches, including graphs, autoencoders, and generative adversarial methods, to deal with the lack of labels.

arxiv情報

著者 Gissel Velarde,Anindya Sudhir,Sanjay Deshmane,Anuj Deshmunkh,Khushboo Sharma,Vaibhav Joshi
発行日 2023-03-27 13:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク