要約
機械学習モデルは、不正行為の検出や解約予測などのユースケースのための多くの現代の金融システムを支えています。
ほとんどは、手作業で設計された機能を使用した教師あり学習に基づいており、ラベル付きデータの可用性に大きく依存しています。
大規模な自己教師あり生成モデルは、自然言語処理とコンピューター ビジョンで多大な成功を収めていますが、これまでのところ、金融取引の多変量時系列には適応されていません。
この論文では、金融取引のコンテキスト化された埋め込みを取得するために使用できる生成的な事前トレーニング方法を紹介します。
公開データセットのベンチマークでは、さまざまな下流タスクにおいて、最先端の自己教師あり手法よりも優れたパフォーマンスを発揮することが実証されています。
さらに、180 の発行銀行からの 51 億件の取引を含むデータのコーパスを使用して埋め込みモデルの大規模な事前トレーニングを実行し、それをホールドアウト データセットのカード不正検出問題に適用します。
埋め込みモデルにより、高精度のしきい値での値の検出率が大幅に向上し、ドメイン外の分布にも適切に転送されます。
要約(オリジナル)
Machine learning models underpin many modern financial systems for use cases such as fraud detection and churn prediction. Most are based on supervised learning with hand-engineered features, which relies heavily on the availability of labelled data. Large self-supervised generative models have shown tremendous success in natural language processing and computer vision, yet so far they haven’t been adapted to multivariate time series of financial transactions. In this paper, we present a generative pretraining method that can be used to obtain contextualised embeddings of financial transactions. Benchmarks on public datasets demonstrate that it outperforms state-of-the-art self-supervised methods on a range of downstream tasks. We additionally perform large-scale pretraining of an embedding model using a corpus of data from 180 issuing banks containing 5.1 billion transactions and apply it to the card fraud detection problem on hold-out datasets. The embedding model significantly improves value detection rate at high precision thresholds and transfers well to out-of-domain distributions.
arxiv情報
著者 | Piotr Skalski,David Sutton,Stuart Burrell,Iker Perez,Jason Wong |
発行日 | 2024-01-04 16:52:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google