FDINet: Protecting against DNN Model Extraction via Feature Distortion Index

要約

Machine Learning as a Service (MLaaS) プラットフォームは、アクセシビリティ、コスト効率、スケーラビリティ、および迅速な開発機能により人気が高まっています。
ただし、最近の研究では、MLaaS のクラウドベースのモデルがモデル抽出攻撃に対して脆弱であることが明らかになりました。
このペーパーでは、ディープ ニューラル ネットワーク (DNN) モデルの特徴分布を活用する新しい防御メカニズムである FDINET を紹介します。
具体的には、攻撃者のクエリからの特徴分布を分析することによって、これらのクエリの特徴分布がモデルのトレーニング セットの特徴分布から逸脱していることを明らかにします。
この重要な観察に基づいて、受信したクエリの特徴分布の偏差を定量的に測定するために設計された指標である特徴歪み指数 (FDI) を提案します。
提案された FDINET は、FDI を利用してバイナリ検出器をトレーニングし、FDI の類似性を利用して分散抽出攻撃から共謀している敵を特定します。
私たちは、4 つのベンチマーク データセットと 4 つの一般的なモデル アーキテクチャに対する 6 つの最先端の抽出攻撃に対して FDINET を評価する広範な実験を実施しています。
実験結果は次のことを示しています。FDINET はモデル抽出の検出に非常に効果的であり、DFME および DaST で 100% の検出精度を達成していることが証明されています。
FDINET は非常に効率的で、わずか 50 個のクエリを使用して抽出アラームを生成し、GTSRB の平均信頼度は 96.08% です。
FDINET は、91% を超える精度で共謀している敵を特定する機能を示します。
さらに、2 種類の適応型攻撃を検出する機能も実証します。

要約(オリジナル)

Machine Learning as a Service (MLaaS) platforms have gained popularity due to their accessibility, cost-efficiency, scalability, and rapid development capabilities. However, recent research has highlighted the vulnerability of cloud-based models in MLaaS to model extraction attacks. In this paper, we introduce FDINET, a novel defense mechanism that leverages the feature distribution of deep neural network (DNN) models. Concretely, by analyzing the feature distribution from the adversary’s queries, we reveal that the feature distribution of these queries deviates from that of the model’s training set. Based on this key observation, we propose Feature Distortion Index (FDI), a metric designed to quantitatively measure the feature distribution deviation of received queries. The proposed FDINET utilizes FDI to train a binary detector and exploits FDI similarity to identify colluding adversaries from distributed extraction attacks. We conduct extensive experiments to evaluate FDINET against six state-of-the-art extraction attacks on four benchmark datasets and four popular model architectures. Empirical results demonstrate the following findings FDINET proves to be highly effective in detecting model extraction, achieving a 100% detection accuracy on DFME and DaST. FDINET is highly efficient, using just 50 queries to raise an extraction alarm with an average confidence of 96.08% for GTSRB. FDINET exhibits the capability to identify colluding adversaries with an accuracy exceeding 91%. Additionally, it demonstrates the ability to detect two types of adaptive attacks.

arxiv情報

著者 Hongwei Yao,Zheng Li,Haiqin Weng,Feng Xue,Zhan Qin,Kui Ren
発行日 2024-10-22 16:39:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク