要約
一般化を許可されていないドメインに制限する「非譲渡不可能な障壁」を作成することにより、モデルの知的財産(IP)を保護するために、非譲渡不能学習(NTL)が提案されています。
最近、適切に設計された攻撃は、認定されたサンプルの少数でNTLモデルを微調整することにより、許可されていないドメインパフォーマンスを回復し、NTLベースのアプリケーションのセキュリティリスクを強調しています。
ただし、このような攻撃にはモデルの重みを変更する必要があるため、ブラックボックスシナリオでは無効です。
これは重要な疑問を提起します:ブラックボックスシステムとして展開されたNTLモデルのセキュリティを信頼できますか?
この作業では、テスト時間データを偽装して譲渡不可能な障壁を脱獄するための新しい攻撃方法(jailntlと呼ばれる)を提案することにより、ブラックボックスNTLモデルの最初の抜け穴を明らかにします。
jailntlの主な考え方は、不正なデータを偽装して、NTLモデルによって承認されていると特定できるため、NTLモデルの重みを変更せずに譲渡不可能な障壁をバイパスすることです。
具体的には、刑務所は、次の2つのレベルでの許可されていないドメインの偽装を奨励しています。
経験的に、ブラックボックスシナリオで最先端(SOTA)NTLモデルを攻撃する場合、jailntlは、既存のSOTAホワイトボックス攻撃を大きく超えて、許可されたサンプルのみを使用することにより、不正なドメインで最大55.7%の精度を達成します。
要約(オリジナル)
Non-transferable learning (NTL) has been proposed to protect model intellectual property (IP) by creating a ‘non-transferable barrier’ to restrict generalization from authorized to unauthorized domains. Recently, well-designed attack, which restores the unauthorized-domain performance by fine-tuning NTL models on few authorized samples, highlights the security risks of NTL-based applications. However, such attack requires modifying model weights, thus being invalid in the black-box scenario. This raises a critical question: can we trust the security of NTL models deployed as black-box systems? In this work, we reveal the first loophole of black-box NTL models by proposing a novel attack method (dubbed as JailNTL) to jailbreak the non-transferable barrier through test-time data disguising. The main idea of JailNTL is to disguise unauthorized data so it can be identified as authorized by the NTL model, thereby bypassing the non-transferable barrier without modifying the NTL model weights. Specifically, JailNTL encourages unauthorized-domain disguising in two levels, including: (i) data-intrinsic disguising (DID) for eliminating domain discrepancy and preserving class-related content at the input-level, and (ii) model-guided disguising (MGD) for mitigating output-level statistics difference of the NTL model. Empirically, when attacking state-of-the-art (SOTA) NTL models in the black-box scenario, JailNTL achieves an accuracy increase of up to 55.7% in the unauthorized domain by using only 1% authorized samples, largely exceeding existing SOTA white-box attacks.
arxiv情報
著者 | Yongli Xiang,Ziming Hong,Lina Yao,Dadong Wang,Tongliang Liu |
発行日 | 2025-03-21 14:47:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google