Probabilistically Robust Watermarking of Neural Networks

要約

深層学習 (DL) モデルはサービスとしての機械学習 (MLaaS) プラットフォームで広く効果的に使用されているため、特定のモデルの所有権を確認するために使用できる DL 透かし技術への関心が急速に高まっています。
残念ながら、これらの方法では通常、モデル盗用攻撃を受けやすいウォーターマークが生成されます。
私たちの研究では、機能を盗む攻撃、特に抽出と蒸留を伴う攻撃に対する回復力を実証する、新しいトリガー セット ベースの透かしアプローチを導入します。
私たちのアプローチは追加のモデルトレーニングを必要とせず、あらゆるモデルアーキテクチャに適用できます。
私たちの方法の重要なアイデアは、ソース モデルとプロキシ モデルのセットの間で高い確率で転送可能なトリガー セットを計算することです。
私たちの実験研究では、セットが譲渡可能である確率がかなり高ければ、盗まれたモデルの所有権の検証に効果的に使用できることを示しました。
私たちは複数のベンチマークで私たちの方法を評価し、考えられたすべての実験設定において私たちのアプローチが現在の最先端の透かし技術よりも優れていることを示しました。

要約(オリジナル)

As deep learning (DL) models are widely and effectively used in Machine Learning as a Service (MLaaS) platforms, there is a rapidly growing interest in DL watermarking techniques that can be used to confirm the ownership of a particular model. Unfortunately, these methods usually produce watermarks susceptible to model stealing attacks. In our research, we introduce a novel trigger set-based watermarking approach that demonstrates resilience against functionality stealing attacks, particularly those involving extraction and distillation. Our approach does not require additional model training and can be applied to any model architecture. The key idea of our method is to compute the trigger set, which is transferable between the source model and the set of proxy models with a high probability. In our experimental study, we show that if the probability of the set being transferable is reasonably high, it can be effectively used for ownership verification of the stolen model. We evaluate our method on multiple benchmarks and show that our approach outperforms current state-of-the-art watermarking techniques in all considered experimental setups.

arxiv情報

著者 Mikhail Pautov,Nikita Bogdanov,Stanislav Pyatkin,Oleg Rogov,Ivan Oseledets
発行日 2024-09-18 16:50:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク