要約
公開データセットの制限により、ハイブリッド意思決定システムで人間と AI の機能を最適に組み合わせることを目的とした学習遅延 (L2D) アルゴリズムの開発とベンチマークが大幅に妨げられています。
このようなシステムでは、人間の可用性とドメイン固有の懸念により困難が生じますが、トレーニングと評価のために人間による予測を取得するにはコストがかかります。
金融詐欺の検出は、アルゴリズムと人間の専門家が連携して作業することが多い一か八かの状況です。
ただし、人間と AI のチーミングのこの重要なアプリケーションに関する、L2D 用の公的に利用可能なデータセットはありません。
L2D 研究におけるこのギャップを埋めるために、合成銀行口座不正検出データセットである Financial Fraud Alert Review Dataset (FiFAR) を導入します。これには、さまざまなバイアスと機能依存性を備えた、非常に複雑で多様な 50 人の合成詐欺アナリストのチームの予測が含まれています。
。
また、見落とされがちな L2D システムの側面である人間の作業能力の制約の現実的な定義も提供し、現実の状況下で割り当てシステムの広範なテストを可能にします。
当社はデータセットを使用して、現実的なデータ可用性条件下でキャパシティを意識した L2D 手法と拒否学習アプローチを開発し、300 の異なるテスト シナリオの下でこれらのベースラインをベンチマークします。
私たちは、このデータセットが、L2D 手法の体系的、厳密、再現可能、透明性のある評価と比較を促進する極めて重要な手段として機能し、それによって意思決定システムにおける人間と AI のより相乗的なコラボレーションの開発を促進すると信じています。
公開データセットと詳細な合成専門家情報は、https://github.com/feedzai/fifar-dataset で入手できます。
要約(オリジナル)
Public dataset limitations have significantly hindered the development and benchmarking of learning to defer (L2D) algorithms, which aim to optimally combine human and AI capabilities in hybrid decision-making systems. In such systems, human availability and domain-specific concerns introduce difficulties, while obtaining human predictions for training and evaluation is costly. Financial fraud detection is a high-stakes setting where algorithms and human experts often work in tandem; however, there are no publicly available datasets for L2D concerning this important application of human-AI teaming. To fill this gap in L2D research, we introduce the Financial Fraud Alert Review Dataset (FiFAR), a synthetic bank account fraud detection dataset, containing the predictions of a team of 50 highly complex and varied synthetic fraud analysts, with varied bias and feature dependence. We also provide a realistic definition of human work capacity constraints, an aspect of L2D systems that is often overlooked, allowing for extensive testing of assignment systems under real-world conditions. We use our dataset to develop a capacity-aware L2D method and rejection learning approach under realistic data availability conditions, and benchmark these baselines under an array of 300 distinct testing scenarios. We believe that this dataset will serve as a pivotal instrument in facilitating a systematic, rigorous, reproducible, and transparent evaluation and comparison of L2D methods, thereby fostering the development of more synergistic human-AI collaboration in decision-making systems. The public dataset and detailed synthetic expert information are available at: https://github.com/feedzai/fifar-dataset
arxiv情報
著者 | Jean V. Alves,Diogo Leitão,Sérgio Jesus,Marco O. P. Sampaio,Pedro Saleiro,Mário A. T. Figueiredo,Pedro Bizarro |
発行日 | 2023-12-20 17:36:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google