NSmark: Null Space Based Black-box Watermarking Defense Framework for Language Models


言語モデル(LM)は、保護が必要な重要な知的財産(IP)として浮上している。様々な電子透かし戦略が提案されているが、LFEA(Linear Functionality Equivalence Attack:線形機能等価攻撃)に対して脆弱である。本論文では、LFEAの攻撃シナリオを分析し、最終層の出力を考慮することで、LMの一般的なブラックボックス設定に拡張する(LL-LFEAと呼ばれる)。我々は、出力行列のヌル空間がLL-LFEA攻撃に対して不変であることを発見した。この発見に基づき、タスクに依存せず、LL-LFEA攻撃に耐えるブラックボックス電子透かし方式であるNSmarkを提案する。(i)所有者のデジタル署名を用いた電子透かし生成、(ii)電子透かし容量を最大化しつつLM性能を保持する出力マッピング抽出器による電子透かし埋め込み、(iii)抽出率とヌル空間適合性による電子透かし検証。(iii)抽出率とヌル空間適合性によって評価される電子透かしの検証。事前学習と下流タスクの両方に関する広範な実験により、本アプローチの有効性、拡張性、信頼性、忠実性、頑健性が確認された。コードはhttps://github.com/dongdongzhaoUP/NSmark。


Language models (LMs) have emerged as critical intellectual property (IP) assets that necessitate protection. Although various watermarking strategies have been proposed, they remain vulnerable to Linear Functionality Equivalence Attack (LFEA), which can invalidate most existing white-box watermarks without prior knowledge of the watermarking scheme or training data. This paper analyzes and extends the attack scenarios of LFEA to the commonly employed black-box settings for LMs by considering Last-Layer outputs (dubbed LL-LFEA). We discover that the null space of the output matrix remains invariant against LL-LFEA attacks. Based on this finding, we propose NSmark, a black-box watermarking scheme that is task-agnostic and capable of resisting LL-LFEA attacks. NSmark consists of three phases: (i) watermark generation using the digital signature of the owner, enhanced by spread spectrum modulation for increased robustness; (ii) watermark embedding through an output mapping extractor that preserves the LM performance while maximizing watermark capacity; (iii) watermark verification, assessed by extraction rate and null space conformity. Extensive experiments on both pre-training and downstream tasks confirm the effectiveness, scalability, reliability, fidelity, and robustness of our approach. Code is available at https://github.com/dongdongzhaoUP/NSmark.


著者 Haodong Zhao,Jinming Hu,Peixuan Li,Fangqi Li,Jinrui Sha,Tianjie Ju,Peixuan Chen,Zhuosheng Zhang,Gongshen Liu
発行日 2025-02-03 03:15:34+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク