要約
モデル リーチングは、大規模言語モデル (LLM) をターゲットとした新しい抽出攻撃であり、ターゲット LLM からタスク固有の知識を抽出してパラメータを削減したモデルを作成できます。
ChatGPT-3.5-Turbo からタスク機能を抽出し、わずか 50 ドルの API コストで 73% の完全一致 (EM) 類似性、およびそれぞれ 75% と 87% の SQuAD EM と F1 の精度スコアを達成することで、攻撃の有効性を実証しました。
さらに、ターゲット LLM に対して ML 攻撃ステージングを実行するために、Model Leeching を介して抽出された抽出モデルからの敵対的攻撃の伝達可能性の実現可能性を実証します。その結果、ChatGPT-3.5-Turbo に適用すると、攻撃の成功率が 11% 増加します。
要約(オリジナル)
Model Leeching is a novel extraction attack targeting Large Language Models (LLMs), capable of distilling task-specific knowledge from a target LLM into a reduced parameter model. We demonstrate the effectiveness of our attack by extracting task capability from ChatGPT-3.5-Turbo, achieving 73% Exact Match (EM) similarity, and SQuAD EM and F1 accuracy scores of 75% and 87%, respectively for only $50 in API cost. We further demonstrate the feasibility of adversarial attack transferability from an extracted model extracted via Model Leeching to perform ML attack staging against a target LLM, resulting in an 11% increase to attack success rate when applied to ChatGPT-3.5-Turbo.
arxiv情報
著者 | Lewis Birch,William Hackett,Stefan Trawicki,Neeraj Suri,Peter Garraghan |
発行日 | 2023-09-19 11:45:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google