XGBD: Explanation-Guided Graph Backdoor Detection

要約

バックドア攻撃は、グラフ学習モデルに重大なセキュリティ リスクをもたらします。
トレーニング データセットにバックドア トリガーを挿入することで、ターゲット モデルにバックドアを埋め込むことができます。これにより、トリガーが存在する場合にモデルが誤った予測を行うようになります。
バックドア攻撃に対抗するために、バックドア検出が提案されています。
ビジョンおよび NLP ドメインにおける新たな検出戦略は、興味深い現象に基づいています。つまり、バックドア サンプルとクリーン サンプルの混合物でモデルをトレーニングすると、バックドア サンプルの損失がクリーン サンプルよりも大幅に早く低下し、バックドア サンプルを簡単に検出できるようになります。
損失値が最も低いサンプルを選択します。
ただし、グラフ データのトポロジー特徴情報が無視されているため、グラフ ドメインに直接適用した場合の検出有効性が制限されます。
この目的を達成するために、トポロジー情報を利用する説明ガイド付きバックドア検出方法を提案します。
具体的には、グラフ データセットでヘルパー モデルをトレーニングし、グラフ サンプルをモデルにフィードし、その後、モデルの予測を重要なサブグラフに帰する説明手法を採用します。
バックドア サンプルはクリーン サンプルとは異なる属性分布を持っていることが観察されているため、説明的なサブグラフはバックドア サンプルを検出するためのより識別的な特徴として機能する可能性があります。
複数の一般的なデータセットと攻撃方法に関する包括的な実験により、私たちの方法の有効性と説明可能性が実証されています。
コードは https://github.com/GuanZihan/GNN_backdoor_detection から入手できます。

要約(オリジナル)

Backdoor attacks pose a significant security risk to graph learning models. Backdoors can be embedded into the target model by inserting backdoor triggers into the training dataset, causing the model to make incorrect predictions when the trigger is present. To counter backdoor attacks, backdoor detection has been proposed. An emerging detection strategy in the vision and NLP domains is based on an intriguing phenomenon: when training models on a mixture of backdoor and clean samples, the loss on backdoor samples drops significantly faster than on clean samples, allowing backdoor samples to be easily detected by selecting samples with the lowest loss values. However, the ignorance of topological feature information on graph data limits its detection effectiveness when applied directly to the graph domain. To this end, we propose an explanation-guided backdoor detection method to take advantage of the topological information. Specifically, we train a helper model on the graph dataset, feed graph samples into the model, and then adopt explanation methods to attribute model prediction to an important subgraph. We observe that backdoor samples have distinct attribution distribution than clean samples, so the explanatory subgraph could serve as more discriminative features for detecting backdoor samples. Comprehensive experiments on multiple popular datasets and attack methods demonstrate the effectiveness and explainability of our method. Our code is available: https://github.com/GuanZihan/GNN_backdoor_detection.

arxiv情報

著者 Zihan Guan,Mengnan Du,Ninghao Liu
発行日 2023-08-08 17:10:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, cs.SI パーマリンク