SSL-WM: A Black-Box Watermarking Approach for Encoders Pre-trained by Self-supervised Learning

要約

近年、自己教師あり学習 (SSL) が大きな成功を収めており、コンピューター ビジョン (CV) および自然言語処理 (NLP) ドメインにおけるさまざまな下流タスクを促進するために広く利用されています。
ただし、攻撃者がそのような SSL モデルを盗んで営利目的に商品化する可能性があるため、SSL モデルの所有権を確認することが重要になります。
ほとんどの既存の所有権保護ソリューション (バックドアベースのウォーターマークなど) は教師あり学習モデル用に設計されており、ウォーターマークの埋め込み中にモデルの下流タスクとターゲット ラベルが既知で利用可能であることが必要であるため、直接使用することはできませんが、これは常に可能であるとは限りません。
SSLのドメイン。
このような問題、特に透かし埋め込み中の下流タスクが多様で未知である場合に対処するために、SSL モデルの所有権を検証するための SSL-WM という新しいブラックボックス透かしソリューションを提案します。
SSL-WM は、保護されたエンコーダーの透かし入り入力を不変表現空間にマッピングします。これにより、下流の分類子が予期される動作を生成し、埋め込まれた透かしの検出が可能になります。
当社は、対照ベースと生成ベースの両方の異なる SSL モデルを使用して、CV や NLP などの多数のタスクで SSL-WM を評価します。
実験結果は、SSL-WM がさまざまなダウンストリーム タスクにおいて、盗まれた SSL モデルの所有権を効果的に検証できることを示しています。
さらに、SSL-WM は、モデルの微調整、枝刈り、および入力前処理攻撃に対して堅牢です。
最後に、SSL-WM は、評価済みの透かし検出アプローチによる検出を回避することもでき、SSL モデルの所有権を保護する際の有望な用途を示しています。

要約(オリジナル)

Recent years have witnessed tremendous success in Self-Supervised Learning (SSL), which has been widely utilized to facilitate various downstream tasks in Computer Vision (CV) and Natural Language Processing (NLP) domains. However, attackers may steal such SSL models and commercialize them for profit, making it crucial to verify the ownership of the SSL models. Most existing ownership protection solutions (e.g., backdoor-based watermarks) are designed for supervised learning models and cannot be used directly since they require that the models’ downstream tasks and target labels be known and available during watermark embedding, which is not always possible in the domain of SSL. To address such a problem, especially when downstream tasks are diverse and unknown during watermark embedding, we propose a novel black-box watermarking solution, named SSL-WM, for verifying the ownership of SSL models. SSL-WM maps watermarked inputs of the protected encoders into an invariant representation space, which causes any downstream classifier to produce expected behavior, thus allowing the detection of embedded watermarks. We evaluate SSL-WM on numerous tasks, such as CV and NLP, using different SSL models both contrastive-based and generative-based. Experimental results demonstrate that SSL-WM can effectively verify the ownership of stolen SSL models in various downstream tasks. Furthermore, SSL-WM is robust against model fine-tuning, pruning, and input preprocessing attacks. Lastly, SSL-WM can also evade detection from evaluated watermark detection approaches, demonstrating its promising application in protecting the ownership of SSL models.

arxiv情報

著者 Peizhuo Lv,Pan Li,Shenchen Zhu,Shengzhi Zhang,Kai Chen,Ruigang Liang,Chang Yue,Fan Xiang,Yuling Cai,Hualong Ma,Yingjun Zhang,Guozhu Meng
発行日 2024-01-29 14:25:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク