要約
大規模な言語モデル(LLMS)のセキュリティ問題は最近、有害な出力を防ぐためにさまざまな防御メカニズムが開発されており、テキストの埋め込みモデルに基づく保護が基本的な防御として機能します。
テストを通じて、テキスト埋め込みモデルの出力の分布が大きな平均で大幅に偏っていることがわかります。
この観察に触発されて、テキストの埋め込みモデルを攻撃できる普遍的な魔法の言葉を検索するための新しい効率的な方法を提案します。
接尾辞としての普遍的な魔法の言葉は、テキストの埋め込みをバイアス方向に移動するため、テキストペアの類似性を操作し、保護策を誤解させます。
ユーザープロンプトに魔法の言葉を追加し、LLMに魔法の言葉で答えを終了するよう要求することにより、攻撃者はセーフガードを脱獄することができます。
このセキュリティリスクを根絶するために、このような攻撃に対する防衛メカニズムも提案します。これは、列車のない方法でテキスト埋め込みの偏った分布を修正することができます。
要約(オリジナル)
The security issue of large language models (LLMs) has gained significant attention recently, with various defense mechanisms developed to prevent harmful outputs, among which safeguards based on text embedding models serve as a fundamental defense. Through testing, we discover that the distribution of text embedding model outputs is significantly biased with a large mean. Inspired by this observation, we propose novel efficient methods to search for universal magic words that can attack text embedding models. The universal magic words as suffixes can move the embedding of any text towards the bias direction, therefore manipulate the similarity of any text pair and mislead safeguards. By appending magic words to user prompts and requiring LLMs to end answers with magic words, attackers can jailbreak the safeguard. To eradicate this security risk, we also propose defense mechanisms against such attacks, which can correct the biased distribution of text embeddings in a train-free manner.
arxiv情報
著者 | Haoyu Liang,Youran Sun,Yunfeng Cai,Jun Zhu,Bo Zhang |
発行日 | 2025-01-30 11:37:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google