Uncovering Safety Risks in Open-source LLMs through Concept Activation Vector

要約

現在のオープンソースの大規模言語モデル (LLM) は、多くの場合、公開前に慎重な安全性調整が行われます。
LLM の安全性の脆弱性をチェックしてアライメントの堅牢性を確保するのに役立ついくつかの攻撃方法も提案されています。
ただし、これらの方法の多くは攻撃の成功率が中程度です。
たとえ成功したとしても、その出力の有害性は保証されず、これらの方法が LLM の安全性の脆弱性を正確に特定していないのではないかという疑惑につながります。
この論文では、概念ベースのモデル説明を利用した LLM 攻撃手法を紹介します。LLM の活性化空間から安全コンセプト活性化ベクトル (SCAV) を抽出し、LLaMA-2 のような適切に調整された LLM に対する効率的な攻撃を可能にし、ほぼ 100% を達成します。
LLM が完全に連携していないかのような攻撃成功率。
これは、LLM が安全性の調整を徹底した後でも、一般公開時には依然として社会に潜在的なリスクをもたらす可能性があることを示唆しています。
さまざまな攻撃手法によってもたらされる出力の有害性を評価するために、既存の評価の潜在的な不正確性を軽減する包括的な評価手法を提案し、さらに、我々の手法がより有害なコンテンツを引き起こすことを検証します。
さらに、SCAV はさまざまなオープンソース LLM 間である程度の転送可能性を示していることも発見しました。

要約(オリジナル)

Current open-source large language models (LLMs) are often undergone careful safety alignment before public release. Some attack methods have also been proposed that help check for safety vulnerabilities in LLMs to ensure alignment robustness. However, many of these methods have moderate attack success rates. Even when successful, the harmfulness of their outputs cannot be guaranteed, leading to suspicions that these methods have not accurately identified the safety vulnerabilities of LLMs. In this paper, we introduce a LLM attack method utilizing concept-based model explanation, where we extract safety concept activation vectors (SCAVs) from LLMs’ activation space, enabling efficient attacks on well-aligned LLMs like LLaMA-2, achieving near 100% attack success rate as if LLMs are completely unaligned. This suggests that LLMs, even after thorough safety alignment, could still pose potential risks to society upon public release. To evaluate the harmfulness of outputs resulting with various attack methods, we propose a comprehensive evaluation method that reduces the potential inaccuracies of existing evaluations, and further validate that our method causes more harmful content. Additionally, we discover that the SCAVs show some transferability across different open-source LLMs.

arxiv情報

著者 Zhihao Xu,Ruixuan Huang,Xiting Wang,Fangzhao Wu,Jing Yao,Xing Xie
発行日 2024-04-18 09:46:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク