要約
機械学習モデルを使用して合成データを生成することは、多くの分野で一般的になりました。
不正行為の検出に使用できる合成トランザクションを生成するテクノロジーも急速に成長しています。
通常、この合成データには、時間、場所、金額などの取引に関する情報のみが含まれます。
通常、個々のユーザーの特性は含まれません (年齢や性別が含まれる場合もあります)。
比較的複雑な合成人口統計データを使用すると、トランザクション データの特徴の複雑さが改善され、不正行為の検出パフォーマンスが向上する可能性があります。
機械学習の発展の恩恵を受けて、一部の深層学習モデルは、マイクロシミュレーションなどの他の十分に確立された合成データ生成方法よりも優れたパフォーマンスを発揮する可能性があります。
この研究では、人口統計データの生成に使用される、DGGAN と呼ばれる深層学習敵対的生成ネットワーク (GAN) を構築しました。
私たちのモデルは、モデルのトレーニング中にサンプルを生成します。これは、クラスの不均衡の問題を克服するために重要であることがわかりました。
この研究は、合成データの認識を改善し、カード不正検出における合成データ生成の応用をさらに検討するのに役立ちます。
要約(オリジナル)
Using machine learning models to generate synthetic data has become common in many fields. Technology to generate synthetic transactions that can be used to detect fraud is also growing fast. Generally, this synthetic data contains only information about the transaction, such as the time, place, and amount of money. It does not usually contain the individual user’s characteristics (age and gender are occasionally included). Using relatively complex synthetic demographic data may improve the complexity of transaction data features, thus improving the fraud detection performance. Benefiting from developments of machine learning, some deep learning models have potential to perform better than other well-established synthetic data generation methods, such as microsimulation. In this study, we built a deep-learning Generative Adversarial Network (GAN), called DGGAN, which will be used for demographic data generation. Our model generates samples during model training, which we found important to overcame class imbalance issues. This study can help improve the cognition of synthetic data and further explore the application of synthetic data generation in card fraud detection.
arxiv情報
著者 | Shuo Wang,Terrence Tricco,Xianta Jiang,Charles Robertson,John Hawkin |
発行日 | 2023-06-29 17:08:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google