Alignment-Aware Model Extraction Attacks on Large Language Models

要約

大規模言語モデル (LLM) に対するモデル抽出攻撃 (MEA) は、最近研究でますます注目を集めています。
LLM に対する既存の攻撃方法は、ディープ ニューラル ネットワーク (DNN) 用に設計された抽出戦略を継承していますが、MEA と LLM のアライメント間のトレーニング タスクの不一致を無視しています。
そのため、攻撃パフォーマンスが低下します。
この問題に取り組むために、LLM に特化した新しいモデル抽出攻撃アルゴリズムである Locality Reinforced Distillation (LoRD) を紹介します。
特に、ローカル モデルの優先順位の作成をガイドする信号として被害者モデルの応答を利用する、ポリシー勾配スタイルのトレーニング タスクを設計します。
理論的分析により、i) MEA における LoRD の収束手順は LLM の調整と一致しており、ii) LoRD は探索ベースの盗用を通じてウォーターマーク保護を軽減しながらクエリの複雑さを軽減できることが示されています。
ドメイン固有の抽出に関する広範な実験により、さまざまな最先端の商用 LLM の抽出を調べることで、私たちの方法の優位性が実証されました。

要約(オリジナル)

Model extraction attacks (MEAs) on large language models (LLMs) have received increasing research attention lately. Existing attack methods on LLMs inherit the extraction strategies from those designed for deep neural networks (DNNs) yet neglect the inconsistency of training tasks between MEA and LLMs’ alignments. As such, they result in poor attack performances. To tackle this issue, we present Locality Reinforced Distillation (LoRD), a novel model extraction attack algorithm specifically for LLMs. In particular, we design a policy-gradient-style training task, which utilizes victim models’ responses as a signal to guide the crafting of preference for the local model. Theoretical analysis has shown that i) LoRD’s convergence procedure in MEAs is consistent with the alignments of LLMs, and ii) LoRD can reduce query complexity while mitigating watermark protection through exploration-based stealing. Extensive experiments on domain-specific extractions demonstrate the superiority of our method by examining the extraction of various state-of-the-art commercial LLMs.

arxiv情報

著者 Zi Liang,Qingqing Ye,Yanyun Wang,Sen Zhang,Yaxin Xiao,Ronghua Li,Jianliang Xu,Haibo Hu
発行日 2024-09-04 13:54:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク