要約
自己教師の学習(SSL)は、データ自体から生成された監督シグナルを活用する新たなパラダイムであり、多くの最近の研究でSSLを活用してグラフの異常検出を実施しています。
ただし、3つの重要な要因がデータセット全体で検出パフォーマンスに大きく影響を与える可能性があることを経験的に発見しました。1)採用されている特定のSSL戦略。
2)戦略のハイパーパラメーターのチューニング。
3)複数の戦略を使用する場合の組み合わせ重みの割り当て。
ほとんどのSSLベースのグラフ異常検出方法は、SSL戦略、ハイパーパラメーター設定、および組み合わせウェイトを選択する任意または選択的(つまり、ラベル情報に導かれる)により、これらの問題を回避します。
arbitrary意的な選択はパフォーマンスを下回る可能性がありますが、監視されていない設定でラベル情報を使用することはラベル情報の漏れであり、メソッドのパフォーマンスの深刻な過大評価につながります。
漏れは「上位10のデータマイニングミスの1つ」として批判されていますが、SSLベースのグラフの異常検出に関する最近の多くの研究では、ラベル情報を使用してハイパーパラメーターを選択しています。
この問題を軽減するために、監視されていない異常検出のためにSSLのハイパーパラメーターを選択するために、内部評価戦略(理論分析を伴う)を使用することを提案します。
さまざまなベンチマークデータセットで10の最近のSSLベースのグラフアノマリー検出アルゴリズムを使用して、広範な実験を実行し、ハイパーパラメーターの選択に関する以前の問題と提案された戦略の有効性の両方を示しています。
要約(オリジナル)
Self-supervised learning (SSL) is an emerging paradigm that exploits supervisory signals generated from the data itself, and many recent studies have leveraged SSL to conduct graph anomaly detection. However, we empirically found that three important factors can substantially impact detection performance across datasets: 1) the specific SSL strategy employed; 2) the tuning of the strategy’s hyperparameters; and 3) the allocation of combination weights when using multiple strategies. Most SSL-based graph anomaly detection methods circumvent these issues by arbitrarily or selectively (i.e., guided by label information) choosing SSL strategies, hyperparameter settings, and combination weights. While an arbitrary choice may lead to subpar performance, using label information in an unsupervised setting is label information leakage and leads to severe overestimation of a method’s performance. Leakage has been criticized as ‘one of the top ten data mining mistakes’, yet many recent studies on SSL-based graph anomaly detection have been using label information to select hyperparameters. To mitigate this issue, we propose to use an internal evaluation strategy (with theoretical analysis) to select hyperparameters in SSL for unsupervised anomaly detection. We perform extensive experiments using 10 recent SSL-based graph anomaly detection algorithms on various benchmark datasets, demonstrating both the prior issues with hyperparameter selection and the effectiveness of our proposed strategy.
arxiv情報
著者 | Zhong Li,Yuhang Wang,Matthijs van Leeuwen |
発行日 | 2025-01-24 18:13:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google