要約
MLaaS(Machine Learning models as a Service)は幅広く応用されているにもかかわらず、モデル盗用攻撃に対して脆弱です。これらの攻撃は、ターゲットとなる被害モデルの事前知識なしに、ブラックボックスクエリプロセスを使用してモデル機能を複製することができます。既存の盗用防御は、攻撃者を欺くために被害者の事後確率に欺瞞的な摂動を加えます。しかし、これらの防御は、推論計算オーバーヘッドが大きいという問題や、良性精度と盗用頑健性のトレードオフが不利であるという問題に悩まされており、実際に導入されたモデルの実現可能性に課題がある。この問題に対処するため、本稿では、モデル盗用防御のための新規かつ効果的な学習フレームワークであるIsolation and Induction (InI)を提案する。InIは、冗長な推論時間を導入する補助的な防御モジュールを配置する代わりに、敵の訓練勾配を期待勾配から分離することにより防御モデルを直接訓練し、推論計算コストを効果的に削減することができる。また、モデル予測に摂動を加えることで、良性モデルの精度を低下させるのとは対照的に、窃盗クエリに対して無意味な出力を生成するようにモデルを訓練することで、敵対者が被害モデルから有用な知識をほとんど引き出さないように誘導し、良性モデルの性能への影響を最小限に抑えることができる。複数の視覚分類データセット(MNISTやCIFAR10など)を用いた広範な実験により、我々のInIが他の最先端手法よりも優れた頑健性(盗用精度を最大48%削減)と速度(最大25.4倍高速)を持つことが実証された。我々のコードはhttps://github.com/DIG-Beihang/InI-Model-Stealing-Defense。
要約(オリジナル)
Despite the broad application of Machine Learning models as a Service (MLaaS), they are vulnerable to model stealing attacks. These attacks can replicate the model functionality by using the black-box query process without any prior knowledge of the target victim model. Existing stealing defenses add deceptive perturbations to the victim’s posterior probabilities to mislead the attackers. However, these defenses are now suffering problems of high inference computational overheads and unfavorable trade-offs between benign accuracy and stealing robustness, which challenges the feasibility of deployed models in practice. To address the problems, this paper proposes Isolation and Induction (InI), a novel and effective training framework for model stealing defenses. Instead of deploying auxiliary defense modules that introduce redundant inference time, InI directly trains a defensive model by isolating the adversary’s training gradient from the expected gradient, which can effectively reduce the inference computational cost. In contrast to adding perturbations over model predictions that harm the benign accuracy, we train models to produce uninformative outputs against stealing queries, which can induce the adversary to extract little useful knowledge from victim models with minimal impact on the benign performance. Extensive experiments on several visual classification datasets (e.g., MNIST and CIFAR10) demonstrate the superior robustness (up to 48% reduction on stealing accuracy) and speed (up to 25.4x faster) of our InI over other state-of-the-art methods. Our codes can be found in https://github.com/DIG-Beihang/InI-Model-Stealing-Defense.
arxiv情報
著者 | Jun Guo,Aishan Liu,Xingyu Zheng,Siyuan Liang,Yisong Xiao,Yichao Wu,Xianglong Liu |
発行日 | 2023-08-03 06:27:08+00:00 |
arxivサイト | arxiv_id(pdf) |