要約
レア カテゴリは現実世界の多くのネットワークに豊富に存在し、金融詐欺の検出、ネットワーク侵入の検出、希少疾患の診断など、一か八かのさまざまなアプリケーションで極めて重要な役割を果たしています。
レア カテゴリ分析 (RCA) は、非常に不均衡なデータ分布における少数派の行動を検出、特徴付け、理解するタスクを指します。
RCA に関する既存の研究の大部分は予測パフォーマンスの向上に焦点を当てていますが、これまでいくつかの基本的な研究課題はほとんど注目されず、あまり研究されていませんでした。それは、レア カテゴリ分析における予測モデルの信頼度、または不確かさですか?
学習プロセスの不確実性を定量化し、信頼性の高いレアカテゴリー分析を可能にするにはどうすればよいでしょうか?
これらの質問に答えるために、既存の RCA 手法における校正ミスを調査することから始めます。
経験的な結果から、最先端の RCA 手法は主に少数派クラスの予測において過信しており、多数派クラスの予測においては過小信頼であることが明らかになりました。
この観察をきっかけに、RCA 特有の課題を軽減し、信頼性の高いレアカテゴリー分析を可能にする、CALIRARE という名前の新しい個別校正フレームワークを提案します。
特に、RCA における不確実性を定量化するために、不確実性の高い重複サポート領域をモデル化するノードレベルの不確実性定量化アルゴリズムを開発します。
誤校正計算における少数クラスの希少性を処理するために、分布ベースの校正メトリックをインスタンス レベルに一般化し、予想される個別校正誤差 (EICE) と名付けられたグラフ上の最初の個別校正測定を提案します。
私たちは、レアカテゴリーの特徴付けやモデルのキャリブレーションタスクなど、現実世界のデータセットに対して広範な実験評価を実行し、提案したフレームワークの重要性を実証しています。
要約(オリジナル)
Rare categories abound in a number of real-world networks and play a pivotal role in a variety of high-stakes applications, including financial fraud detection, network intrusion detection, and rare disease diagnosis. Rare category analysis (RCA) refers to the task of detecting, characterizing, and comprehending the behaviors of minority classes in a highly-imbalanced data distribution. While the vast majority of existing work on RCA has focused on improving the prediction performance, a few fundamental research questions heretofore have received little attention and are less explored: How confident or uncertain is a prediction model in rare category analysis? How can we quantify the uncertainty in the learning process and enable reliable rare category analysis? To answer these questions, we start by investigating miscalibration in existing RCA methods. Empirical results reveal that state-of-the-art RCA methods are mainly over-confident in predicting minority classes and under-confident in predicting majority classes. Motivated by the observation, we propose a novel individual calibration framework, named CALIRARE, for alleviating the unique challenges of RCA, thus enabling reliable rare category analysis. In particular, to quantify the uncertainties in RCA, we develop a node-level uncertainty quantification algorithm to model the overlapping support regions with high uncertainty; to handle the rarity of minority classes in miscalibration calculation, we generalize the distribution-based calibration metric to the instance level and propose the first individual calibration measurement on graphs named Expected Individual Calibration Error (EICE). We perform extensive experimental evaluations on real-world datasets, including rare category characterization and model calibration tasks, which demonstrate the significance of our proposed framework.
arxiv情報
著者 | Longfeng Wu,Bowen Lei,Dongkuan Xu,Dawei Zhou |
発行日 | 2023-07-19 09:38:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google