Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense

要約

大規模な言語モデル(LLM)は、さまざまなドメインにわたって顕著な機能を紹介しています。
進化する機能とLLMSの展開シナリオの拡大に伴い、展開の課題は、それらの規模と、Llama、Gemma、Mistralなどの顕著なモデルシリーズで一般的でありながら複雑な活性化設計により、エスカレートします。
これらの課題は、リソースに制約のある展開シナリオで特に顕著になりました。このシナリオでは、推論のボトルネックを緩和することが不可欠です。
さまざまな最近の取り組みの中で、アクティベーション近似は、推論効率を追求するための有望な手段として浮上しており、私的推論などのアプリケーションでは不可欠であると見なされることもあります。
ユーティリティへの影響を最小限に抑えて実質的なスピードアップを達成し、実際の展開には健全で実用的に見えることさえありますが、アクティベーション近似の安全性への影響は不明のままです。
この作業では、活性化近似の最初の体系的な安全評価を実施することにより、LLMの安全性におけるこの重要なギャップを埋めます。
私たちの安全性審査は、3つの人気のあるカテゴリ(活性化多項式化、活性化のスパース化、および活性化量子化)にわたって7つの最先端の技術に及び、10の安全に配置されたLLMにわたって一貫した安全性分解を明らかにします。
多様なアクティベーション近似方法の統一された防御を考案するというハードルを克服するために、共有エラーパターンの詳細な分析を実行し、3つの重要な調査結果を明らかにします。
アクティベーション近似によって導入された安全性の妥協を軽減するために調整された新しい安全性向上方法であるQuadaを提案します。
広範な実験とアブレーション研究は、活性化近似後のLLMの安全能力を高める上でのQuadaの有効性を裏付けています。

要約(オリジナル)

Large Language Models (LLMs) have showcased remarkable capabilities across various domains. Accompanying the evolving capabilities and expanding deployment scenarios of LLMs, their deployment challenges escalate due to their sheer scale and the advanced yet complex activation designs prevalent in notable model series, such as Llama, Gemma, Mistral. These challenges have become particularly pronounced in resource-constrained deployment scenarios, where mitigating inference bottlenecks is imperative. Among various recent efforts, activation approximation has emerged as a promising avenue for pursuing inference efficiency, sometimes considered indispensable in applications such as private inference. Despite achieving substantial speedups with minimal impact on utility, even appearing sound and practical for real-world deployment, the safety implications of activation approximations remain unclear. In this work, we fill this critical gap in LLM safety by conducting the first systematic safety evaluation of activation approximations. Our safety vetting spans seven state-of-the-art techniques across three popular categories (activation polynomialization, activation sparsification, and activation quantization), revealing consistent safety degradation across ten safety-aligned LLMs. To overcome the hurdle of devising a unified defense accounting for diverse activation approximation methods, we perform an in-depth analysis of their shared error patterns and uncover three key findings. We propose QuadA, a novel safety enhancement method tailored to mitigate the safety compromises introduced by activation approximations. Extensive experiments and ablation studies corroborate QuadA’s effectiveness in enhancing the safety capabilities of LLMs after activation approximations.

arxiv情報

著者 Jiawen Zhang,Kejia Chen,Lipeng He,Jian Lou,Dan Li,Zunlei Feng,Mingli Song,Jian Liu,Kui Ren,Xiaohu Yang
発行日 2025-06-10 17:24:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク