要約
現在の大規模言語モデル (LLM) は、大規模なユーザー指向の自然言語タスクのための強力な基盤を提供します。
多くのユーザーは、ユーザー インターフェイスを通じて敵対的なテキストや命令を簡単に挿入できるため、言語モデルが正しい答えを与えないなど、LLM モデルのセキュリティ上の問題が発生します。
ブラックボックス攻撃については現在大量の研究が行われていますが、これらのブラックボックス攻撃のほとんどはランダムおよびヒューリスティック戦略を使用しています。
これらの戦略が攻撃の成功率にどのように関係し、モデルの堅牢性を効果的に向上させるのかは不明です。
この問題を解決するために、クリーン テキストと攻撃テキストの条件付き確率の間の KL 乖離を最大化し、攻撃の目標を再定義するターゲット駆動型のブラック ボックス攻撃手法を提案します。
攻撃目標に基づいて距離最大化問題を 2 つの凸最適化問題に変換し、攻撃テキストを解決し、共分散を推定します。
さらに、投影勾配降下法アルゴリズムは、攻撃テキストに対応するベクトルを解決します。
当社のターゲット主導のブラックボックス攻撃アプローチには、トークン操作と誤った情報攻撃という 2 つの攻撃戦略が含まれています。
複数の大規模言語モデルとデータセットに関する実験結果は、私たちの攻撃方法の有効性を示しています。
要約(オリジナル)
Current large language models (LLM) provide a strong foundation for large-scale user-oriented natural language tasks. Many users can easily inject adversarial text or instructions through the user interface, thus causing LLM model security challenges like the language model not giving the correct answer. Although there is currently a large amount of research on black-box attacks, most of these black-box attacks use random and heuristic strategies. It is unclear how these strategies relate to the success rate of attacks and thus effectively improve model robustness. To solve this problem, we propose our target-driven black-box attack method to maximize the KL divergence between the conditional probabilities of the clean text and the attack text to redefine the attack’s goal. We transform the distance maximization problem into two convex optimization problems based on the attack goal to solve the attack text and estimate the covariance. Furthermore, the projected gradient descent algorithm solves the vector corresponding to the attack text. Our target-driven black-box attack approach includes two attack strategies: token manipulation and misinformation attack. Experimental results on multiple Large Language Models and datasets demonstrate the effectiveness of our attack method.
arxiv情報
著者 | Chong Zhang,Mingyu Jin,Dong Shu,Taowen Wang,Dongfang Liu,Xiaobo Jin |
発行日 | 2024-11-13 11:28:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google