Uncovering Safety Risks of Large Language Models through Concept Activation Vector

要約

安全性を注意深く調整しているにもかかわらず、現在の大規模言語モデル (LLM) は依然としてさまざまな攻撃に対して脆弱です。
LLM の安全性リスクをさらに明らかにするために、LLM の安全メカニズムを正確に解釈することで攻撃を効果的に誘導する Safety Concept Activation Vector (SCAV) フレームワークを導入します。
次に、自動的に選択された摂動ハイパーパラメータを使用して、攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できる SCAV 誘導型攻撃手法を開発します。
自動評価と人間による評価の両方で、私たちの攻撃方法が、必要なトレーニング データを減らしながら、攻撃の成功率と応答品質を大幅に向上させることが実証されました。
さらに、生成された攻撃プロンプトは GPT-4 に転送可能である可能性があり、埋め込みレベルの攻撃もパラメーターが既知である他のホワイトボックス LLM に転送される可能性があることがわかりました。
私たちの実験により、現在の LLM に存在する安全性リスクがさらに明らかになりました。
たとえば、攻撃対象の 7 つのオープンソース LLM のうち 6 つは、85\% 以上の悪意のある命令に対して一貫して適切な回答を提供していることがわかりました。
最後に、LLM の安全メカニズムについての洞察を提供します。

要約(オリジナル)

Despite careful safety alignment, current large language models (LLMs) remain vulnerable to various attacks. To further unveil the safety risks of LLMs, we introduce a Safety Concept Activation Vector (SCAV) framework, which effectively guides the attacks by accurately interpreting LLMs’ safety mechanisms. We then develop an SCAV-guided attack method that can generate both attack prompts and embedding-level attacks with automatically selected perturbation hyperparameters. Both automatic and human evaluations demonstrate that our attack method significantly improves the attack success rate and response quality while requiring less training data. Additionally, we find that our generated attack prompts may be transferable to GPT-4, and the embedding-level attacks may also be transferred to other white-box LLMs whose parameters are known. Our experiments further uncover the safety risks present in current LLMs. For example, we find that six out of seven open-source LLMs that we attack consistently provide relevant answers to more than 85\% malicious instructions. Finally, we provide insights into the safety mechanism of LLMs.

arxiv情報

著者 Zhihao Xu,Ruixuan Huang,Changyu Chen,Shuai Wang,Xiting Wang
発行日 2024-07-02 14:17:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク