How to Use Graph Data in the Wild to Help Graph Anomaly Detection?

要約

近年、グラフの異常検出により、ソーシャル、財務、通信ネットワークなどのさまざまなドメインで広範なアプリケーションが見つかりました。
ただし、グラフ構造データの異常は、ラベルの希少性、不明確な異常、さまざまな異常タイプなど、監視または半監督の方法を信頼できないようにする独自の課題を提示します。
研究者は、異常が通常のデータ分布から大幅に逸脱すると仮定して、これらの課題に対処するために監視されていないアプローチを採用することがよくあります。
しかし、利用可能なデータが不十分な場合、正規分布を正確かつ包括的にキャプチャすることが困難になります。
この制限を克服するために、異常検出タスクを支援するために、外部グラフデータ(つまり、野生のグラフデータ)を利用することを提案します。
これは自然に疑問を提起します:外部データを使用して、異常検出タスクをグラフ化するのに役立つことができますか?
この質問に答えるために、Wild-Gadと呼ばれるフレームワークを提案します。
これは、統一されたデータベースであるUniWildGraphの上に構築されています。これは、広範かつ多様なグラフデータのコレクション、広範なドメインカバレッジ、十分なデータボリューム、統一された機能スペースを備えたグラフデータのコレクションで構成されています。
さらに、表現性と多様性に基づいて選択基準を開発し、異常検出タスクに最も適した外部データを特定します。
6つの現実世界のデータセットでの広範な実験は、野生GADの有効性を示しています。
ベースラインの方法と比較して、私たちのフレームワークは、ベストコンペティション方法よりも平均18%のAUCROCと32%のAUCPR改善があります。

要約(オリジナル)

In recent years, graph anomaly detection has found extensive applications in various domains such as social, financial, and communication networks. However, anomalies in graph-structured data present unique challenges, including label scarcity, ill-defined anomalies, and varying anomaly types, making supervised or semi-supervised methods unreliable. Researchers often adopt unsupervised approaches to address these challenges, assuming that anomalies deviate significantly from the normal data distribution. Yet, when the available data is insufficient, capturing the normal distribution accurately and comprehensively becomes difficult. To overcome this limitation, we propose to utilize external graph data (i.e., graph data in the wild) to help anomaly detection tasks. This naturally raises the question: How can we use external data to help graph anomaly detection tasks? To answer this question, we propose a framework called Wild-GAD. It is built upon a unified database, UniWildGraph, which comprises a large and diverse collection of graph data with broad domain coverage, ample data volume, and a unified feature space. Further, we develop selection criteria based on representativity and diversity to identify the most suitable external data for anomaly detection task. Extensive experiments on six real-world datasets demonstrate the effectiveness of Wild-GAD. Compared to the baseline methods, our framework has an average 18% AUCROC and 32% AUCPR improvement over the best-competing methods.

arxiv情報

著者 Yuxuan Cao,Jiarong Xu,Chen Zhao,Jiaan Wang,Carl Yang,Chunping Wang,Yang Yang
発行日 2025-06-04 17:37:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク