要約
事前に訓練されたモデルは貴重な知的財産であり、重量スペース内でドメイン固有とドメインの両方の機能をキャプチャします。
ただし、モデル抽出攻撃は、不正なソースドメインの推論を可能にし、ドメインに不変の特徴の活用を介してクロスドメイン移転を促進することにより、これらの資産を脅かします。
この作業では、** ProDif **を紹介します。これは、標的型の操作を活用して抽出攻撃に対して事前に訓練されたモデルを確保する新しいフレームワークを紹介します。
** ProDif **は、信頼できるユーザー向けの信頼できる実行環境(TEE)で実際の重要な重みを維持しながら、フィルターとPreturbsの重要なフィルターの重みを無担保メモリの重みを定量化します。
バイレベルの最適化により、適応微調整攻撃に対する回復力がさらに保証されます。
実験結果は、** ProDif **がソースドメインの精度をランダムに近いレベルに減らし、クロスドメインの移動性を74.65 \%減少させ、事前に訓練されたモデルを堅牢な保護を提供することを示しています。
この作業は、事前に訓練されたDNNモデルの包括的な保護を提供し、モデルセキュリティへの新しいアプローチとしての重量空間操作の可能性を強調しています。
要約(オリジナル)
Pre-trained models are valuable intellectual property, capturing both domain-specific and domain-invariant features within their weight spaces. However, model extraction attacks threaten these assets by enabling unauthorized source-domain inference and facilitating cross-domain transfer via the exploitation of domain-invariant features. In this work, we introduce **ProDiF**, a novel framework that leverages targeted weight space manipulation to secure pre-trained models against extraction attacks. **ProDiF** quantifies the transferability of filters and perturbs the weights of critical filters in unsecured memory, while preserving actual critical weights in a Trusted Execution Environment (TEE) for authorized users. A bi-level optimization further ensures resilience against adaptive fine-tuning attacks. Experimental results show that **ProDiF** reduces source-domain accuracy to near-random levels and decreases cross-domain transferability by 74.65\%, providing robust protection for pre-trained models. This work offers comprehensive protection for pre-trained DNN models and highlights the potential of weight space manipulation as a novel approach to model security.
arxiv情報
| 著者 | Tong Zhou,Shijin Duan,Gaowen Liu,Charles Fleming,Ramana Rao Kompella,Shaolei Ren,Xiaolin Xu | 
| 発行日 | 2025-03-17 14:37:42+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
