要約
詐欺の検出は、財務やeコマースなどのハイステークスドメインで重要なタスクのままであり、検出されない不正取引が重大な経済的損失につながる可能性があります。
この研究では、大規模で非常に不均衡なオンライントランザクションデータセットで、ロジスティック回帰、ランダムフォレスト、ランダムグラデーションブーストマシン(LightGBM)、およびゲート再生ユニット(GRU)ネットワーク – 4つのパフォーマンスを体系的に比較します。
ランダムフォレストやLightGBMなどのアンサンブルメソッドは、全体的およびクラス固有のメトリックの両方で優れたパフォーマンスを実証しましたが、ロジスティック回帰は信頼できる解釈可能なベースラインを提供しました。
GRUモデルは、少数派の詐欺クラスの強いリコールを示しましたが、精度を犠牲にして、実際の展開に関連するトレードオフを強調しています。
私たちの評価は、加重平均だけでなく、クラスごとの精度、リコール、F1スコアも強調しており、まれであるが結果的な不正活動の検出における各モデルの有効性の微妙な見解を提供します。
調査結果は、詐欺検出システムの特定のリスク許容度と運用上のニーズに基づいてモデルを選択することの重要性を強調しています。
要約(オリジナル)
Fraud detection remains a critical task in high-stakes domains such as finance and e-commerce, where undetected fraudulent transactions can lead to significant economic losses. In this study, we systematically compare the performance of four supervised learning models – Logistic Regression, Random Forest, Light Gradient Boosting Machine (LightGBM), and a Gated Recurrent Unit (GRU) network – on a large-scale, highly imbalanced online transaction dataset. While ensemble methods such as Random Forest and LightGBM demonstrated superior performance in both overall and class-specific metrics, Logistic Regression offered a reliable and interpretable baseline. The GRU model showed strong recall for the minority fraud class, though at the cost of precision, highlighting a trade-off relevant for real-world deployment. Our evaluation emphasizes not only weighted averages but also per-class precision, recall, and F1-scores, providing a nuanced view of each model’s effectiveness in detecting rare but consequential fraudulent activity. The findings underscore the importance of choosing models based on the specific risk tolerance and operational needs of fraud detection systems.
arxiv情報
著者 | Chao Wang,Chuanhao Nie,Yunbo Liu |
発行日 | 2025-05-28 16:08:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google