Not Just Change the Labels, Learn the Features: Watermarking Deep Neural Networks with Multi-View Data

要約

Machine Learning as a Service (MLaaS) プラットフォームの普及に伴い、ディープ ニューラル ネットワーク (DNN) の透かし技術への注目が高まっています。
これらの方法は、知的財産を保護するためにターゲット DNN モデルの所有権の検証を容易にするために使用されます。
最も広く使用されている透かし技術の 1 つは、ソース モデルにトリガー セットを埋め込むことです。
残念ながら、トリガー セットに基づく既存の方法論は依然として機能窃盗攻撃の影響を受けやすく、所有権を確認する信頼できる手段なしで攻撃者がソース モデルの機能を盗む可能性があります。
この論文では、まず、特徴学習の観点から、トリガー セット ベースの透かし手法に関する新しい観点を紹介します。
具体的には、 \emph{マルチビュー データ} とも呼ばれる、複数の特徴を示すデータを選択することで、機能を盗む攻撃を効果的に防御できることを実証します。
この観点に基づいて、DNN 内に効率的に透かしを埋め込むための、MAT と呼ばれるマルチビュー dATa に基づく新しい透かし技術を紹介します。
このアプローチには、マルチビュー データを使用してトリガー セットを構築し、ソース モデルをトレーニングするためのシンプルな特徴ベースの正則化手法を組み込むことが含まれます。
私たちはさまざまなベンチマークにわたって手法を検証し、モデル抽出攻撃に対する防御におけるその有効性を実証し、関連するベースラインを大幅に上回りました。
コードは \href{https://github.com/liyuxuan-github/MAT}{https://github.com/liyuxuan-github/MAT} で入手できます。

要約(オリジナル)

With the increasing prevalence of Machine Learning as a Service (MLaaS) platforms, there is a growing focus on deep neural network (DNN) watermarking techniques. These methods are used to facilitate the verification of ownership for a target DNN model to protect intellectual property. One of the most widely employed watermarking techniques involves embedding a trigger set into the source model. Unfortunately, existing methodologies based on trigger sets are still susceptible to functionality-stealing attacks, potentially enabling adversaries to steal the functionality of the source model without a reliable means of verifying ownership. In this paper, we first introduce a novel perspective on trigger set-based watermarking methods from a feature learning perspective. Specifically, we demonstrate that by selecting data exhibiting multiple features, also referred to as \emph{multi-view data}, it becomes feasible to effectively defend functionality stealing attacks. Based on this perspective, we introduce a novel watermarking technique based on Multi-view dATa, called MAT, for efficiently embedding watermarks within DNNs. This approach involves constructing a trigger set with multi-view data and incorporating a simple feature-based regularization method for training the source model. We validate our method across various benchmarks and demonstrate its efficacy in defending against model extraction attacks, surpassing relevant baselines by a significant margin. The code is available at: \href{https://github.com/liyuxuan-github/MAT}{https://github.com/liyuxuan-github/MAT}.

arxiv情報

著者 Yuxuan Li,Sarthak Kumar Maharana,Yunhui Guo
発行日 2024-07-18 16:10:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク