SOS! Soft Prompt Attack Against Open-Source Large Language Models

要約

オープンソースの大規模言語モデル(LLM)は、カスタマイズや微調整が可能で、自由に利用できるため、一般市民や産業界の間で人気が高まっている。しかし、オープンソースのLLMの中には、使用前に承認が必要なものもあるため、サードパーティが簡単にアクセスできる独自のバージョンを公開しています。同様に、サードパーティはこれらのLLMを微調整したものや量子化したものを公開している。これらのバージョンは、アクセスが容易で、計算リソースへの要求が少ないため、ユーザーにとって特に魅力的である。このような傾向は、LLMの完全性と安全性を損なう訓練時間攻撃のリスクを増大させている。本研究では、計算負荷が低く、クリーンデータやモデル重みの変更を必要としない、新しいトレーニング時間攻撃SOSを発表する。この攻撃は、バックドア攻撃、脱獄攻撃、プロンプト窃取攻撃など、様々なシナリオにおけるセキュリティ問題に対処する。我々の実験結果は、提案する攻撃が全ての評価対象において有効であることを示している。さらに、我々のSOS技術のもう一つの側面、すなわち、著作権トークン–ユーザが著作権で保護されたコンテンツをマークし、モデルがそれを使用するのを防ぐことを可能にする新しい技術–を紹介する。

要約(オリジナル)

Open-source large language models (LLMs) have become increasingly popular among both the general public and industry, as they can be customized, fine-tuned, and freely used. However, some open-source LLMs require approval before usage, which has led to third parties publishing their own easily accessible versions. Similarly, third parties have been publishing fine-tuned or quantized variants of these LLMs. These versions are particularly appealing to users because of their ease of access and reduced computational resource demands. This trend has increased the risk of training time attacks, compromising the integrity and security of LLMs. In this work, we present a new training time attack, SOS, which is designed to be low in computational demand and does not require clean data or modification of the model weights, thereby maintaining the model’s utility intact. The attack addresses security issues in various scenarios, including the backdoor attack, jailbreak attack, and prompt stealing attack. Our experimental findings demonstrate that the proposed attack is effective across all evaluated targets. Furthermore, we present the other side of our SOS technique, namely the copyright token — a novel technique that enables users to mark their copyrighted content and prevent models from using it.

arxiv情報

著者 Ziqing Yang,Michael Backes,Yang Zhang,Ahmed Salem
発行日 2024-07-03 14:35:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク