要約
グラフの外れ値の検出は、グラフ ニューラル ネットワークの分野における研究と応用の重要なタスクです。
これは、グラフ内の過半数からの逸脱を示す外れ値ノードを識別します。
教師ありグラフの外れ値検出アルゴリズムが直面する基本的な課題の 1 つは、クラスの不均衡という一般的な問題です。この問題では、通常のインスタンスと比較して外れ値のインスタンスが不足しているため、最適なパフォーマンスが得られないことがよくあります。
従来の方法では、損失関数の推定においてインスタンスの重み付けを変更し、外れ値に高い重みを割り当て、内値に低い重みを割り当てることで不均衡を軽減します。
それにもかかわらず、これらの戦略はそれぞれ過学習と過小学習の傾向があります。
最近、生成モデル、特に拡散モデルが、高忠実度の画像を合成する際の有効性を実証しています。
並外れた生成品質にもかかわらず、教師付きグラフの外れ値検出のためのデータ拡張における可能性は、依然としてほとんど研究されていません。
このギャップを埋めるために、潜在拡散モデルを使用した教師ありグラフ外れ値検出におけるクラスの不均衡を緩和するための新しいデータ拡張である GODM を導入します。
具体的には、私たちの提案手法は 3 つの主要なコンポーネントで構成されます。 (1) Variantl Encoder は、グラフ データ内に固有の異種情報を統一された潜在空間にマッピングします。
(2) Graph Generator は潜在空間から実際の外れ値と統計的に類似したグラフ データを合成し、(3) Latent Diffusion Model は反復ノイズ除去によって実際の有機データの潜在空間分布を学習します。
複数のデータセットに対して行われた広範な実験により、GODM の有効性と効率性が実証されています。
このケーススタディでは、合成データの生成品質をさらに実証しました。
アクセシビリティと再現性を促進するために、GODM をプラグ アンド プレイ パッケージにカプセル化し、Python Package Index (PyPI) でリリースします。
要約(オリジナル)
Graph outlier detection is a prominent task of research and application in the realm of graph neural networks. It identifies the outlier nodes that exhibit deviation from the majority in the graph. One of the fundamental challenges confronting supervised graph outlier detection algorithms is the prevalent issue of class imbalance, where the scarcity of outlier instances compared to normal instances often results in suboptimal performance. Conventional methods mitigate the imbalance by reweighting instances in the estimation of the loss function, assigning higher weights to outliers and lower weights to inliers. Nonetheless, these strategies are prone to overfitting and underfitting, respectively. Recently, generative models, especially diffusion models, have demonstrated their efficacy in synthesizing high-fidelity images. Despite their extraordinary generation quality, their potential in data augmentation for supervised graph outlier detection remains largely underexplored. To bridge this gap, we introduce GODM, a novel data augmentation for mitigating class imbalance in supervised Graph Outlier detection with latent Diffusion Models. Specifically, our proposed method consists of three key components: (1) Variantioanl Encoder maps the heterogeneous information inherent within the graph data into a unified latent space. (2) Graph Generator synthesizes graph data that are statistically similar to real outliers from latent space, and (3) Latent Diffusion Model learns the latent space distribution of real organic data by iterative denoising. Extensive experiments conducted on multiple datasets substantiate the effectiveness and efficiency of GODM. The case study further demonstrated the generation quality of our synthetic data. To foster accessibility and reproducibility, we encapsulate GODM into a plug-and-play package and release it at the Python Package Index (PyPI).
arxiv情報
| 著者 | Kay Liu,Hengrui Zhang,Ziqing Hu,Fangxin Wang,Philip S. Yu |
| 発行日 | 2023-12-29 16:50:40+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google