Explainable Fraud Detection with Deep Symbolic Classification

要約

不正検知の領域では、説明可能で透明性が高く、データ駆動型のモデルに対する需要が高まっている。不正検知モデルによる決定は、顧客との論争が発生した場合に説明可能である必要がある。さらに、規制当局やビジネス利害関係者の信頼を得るためには、モデルの意思決定プロセスが透明でなければなりません。同時に、不正行為のノイジーでダイナミックな性質と、大規模な過去のデータセットが利用可能であることから、不正検知ソリューションはデータから恩恵を受けることができます。最後に、不正検知はそのクラスの不均衡で悪名高く、通常、不正なトランザクションよりも正当なトランザクションの方が数桁多い。本稿では、ディープシンボリック回帰(Deep Symbolic Regression)フレームワークを分類問題に拡張したディープシンボリック分類(Deep Symbolic Classification:DSC)を紹介する。DSCは分類を、変数、定数、演算の語彙で構成される全ての解析的関数の空間における探索問題として投げかけ、任意の評価指標を直接最適化する。探索は強化学習で訓練されたディープニューラルネットワークによって導かれる。関数は閉形式で簡潔な数式であるため、モデルは本質的に単一の分類決定とモデルの決定プロセスの両方のレベルで説明可能である。さらに、F1スコアのようなクラスの不均衡にロバストなメトリクスを最適化することで、クラスの不均衡問題にうまく対処している。これにより、従来のアプローチを悩ませていたオーバーサンプリングやアンダーサンプリングの手法が不要になる。最後に、このモデルは予測精度と説明可能性のバランスを明示的にとることができる。PaySimデータセットでの評価では、説明可能性という点ではそれらを凌駕しながらも、最先端のモデルと遜色のない予測性能が実証された。これにより、DSCが不正検知システムの有望なモデルであることが立証された。

要約(オリジナル)

There is a growing demand for explainable, transparent, and data-driven models within the domain of fraud detection. Decisions made by fraud detection models need to be explainable in the event of a customer dispute. Additionally, the decision-making process in the model must be transparent to win the trust of regulators and business stakeholders. At the same time, fraud detection solutions can benefit from data due to the noisy, dynamic nature of fraud and the availability of large historical data sets. Finally, fraud detection is notorious for its class imbalance: there are typically several orders of magnitude more legitimate transactions than fraudulent ones. In this paper, we present Deep Symbolic Classification (DSC), an extension of the Deep Symbolic Regression framework to classification problems. DSC casts classification as a search problem in the space of all analytic functions composed of a vocabulary of variables, constants, and operations and optimizes for an arbitrary evaluation metric directly. The search is guided by a deep neural network trained with reinforcement learning. Because the functions are mathematical expressions that are in closed-form and concise, the model is inherently explainable both at the level of a single classification decision and the model’s decision process. Furthermore, the class imbalance problem is successfully addressed by optimizing for metrics that are robust to class imbalance such as the F1 score. This eliminates the need for oversampling and undersampling techniques that plague traditional approaches. Finally, the model allows to explicitly balance between the prediction accuracy and the explainability. An evaluation on the PaySim data set demonstrates competitive predictive performance with state-of-the-art models, while surpassing them in terms of explainability. This establishes DSC as a promising model for fraud detection systems.

arxiv情報

著者 Samantha Visbeek,Erman Acar,Floris den Hengst
発行日 2023-12-01 13:50:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク