要約
教師なし外れ値検出 (UOD) は、データ マイニングと機械学習における重要なタスクであり、多数派から大きく逸脱したインスタンスを特定することを目的としています。
ラベルがないと、ディープ UOD メソッドは、モデルの直接の最適化目標と外れ値検出 (OD) タスクの最終パフォーマンス目標の間の不整合に悩まされます。
この論文では、トレーニング ダイナミクスの観点から、ディープ UOD モデルのトレーニングを最適化し、汚染されたデータセット全体を過剰適合させるのではなく、OD で最適なパフォーマンスを保証するための早期停止アルゴリズムを提案します。
UOD メカニズムと、直観的にモデルが外れ値よりも早くインライアに適合するインライア優先現象に触発され、トレーニング中にモデルのリアルタイム パフォーマンスを推定するためのサンプリング ベースのラベルフリー アルゴリズムである GradStop を提案します。
まず、サンプリング手法により 2 つのセットが生成されます。1 つはより多くの外れ値を含み、もう 1 つはより多くの内側値を含む可能性が高く、その後、勾配の凝集度に基づくメトリクスを適用して、OD タスクにおけるモデルのパフォーマンスを反映する現在のトレーニング ダイナミクスを調査します。
4 つのディープ UOD アルゴリズムと 47 の実世界のデータセットに関する実験結果と理論的証明は、ディープ UOD モデルのパフォーマンスを向上させる際の、私たちが提案する早期停止アルゴリズムの有効性を示しています。
GradStop によって強化された Auto Encoder (AE) は、それ自体、他の SOTA UOD メソッド、さらにはアンサンブル AE よりも優れたパフォーマンスを実現します。
私たちの方法は、トレーニング中のパフォーマンス低下の問題に対する堅牢かつ効果的な解決策を提供し、ディープ UOD モデルが異常検出タスクでより優れた可能性を実現できるようにします。
要約(オリジナル)
Unsupervised Outlier Detection (UOD) is a critical task in data mining and machine learning, aiming to identify instances that significantly deviate from the majority. Without any label, deep UOD methods struggle with the misalignment between the model’s direct optimization goal and the final performance goal of Outlier Detection (OD) task. Through the perspective of training dynamics, this paper proposes an early stopping algorithm to optimize the training of deep UOD models, ensuring they perform optimally in OD rather than overfitting the entire contaminated dataset. Inspired by UOD mechanism and inlier priority phenomenon, where intuitively models fit inliers more quickly than outliers, we propose GradStop, a sampling-based label-free algorithm to estimate model’s real-time performance during training. First, a sampling method generates two sets: one likely containing more outliers and the other more inliers, then a metric based on gradient cohesion is applied to probe into current training dynamics, which reflects model’s performance on OD task. Experimental results on 4 deep UOD algorithms and 47 real-world datasets and theoretical proofs demonstrate the effectiveness of our proposed early stopping algorithm in enhancing the performance of deep UOD models. Auto Encoder (AE) enhanced by GradStop achieves better performance than itself, other SOTA UOD methods, and even ensemble AEs. Our method provides a robust and effective solution to the problem of performance degradation during training, enabling deep UOD models to achieve better potential in anomaly detection tasks.
arxiv情報
| 著者 | Yuang Zhang,Liping Wang,Yihong Huang,Yuanxing Zheng |
| 発行日 | 2024-12-11 16:07:58+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google