GenBFA: An Evolutionary Optimization Approach to Bit-Flip Attacks on LLMs

要約

大規模な言語モデル(LLM)は、テキスト生成や要約などのタスクで優れている自然言語処理(NLP)に革命をもたらしました。
ただし、ミッションクリティカルなアプリケーションでの採用の増加は、ハードウェアベースの脅威、特にビットフリップ攻撃(BFA)に関する懸念を引き起こします。
BFAは、Rowhammerなどの断層注入方法によって有効になり、メモリ内のターゲットモデルパラメーター、完全性とパフォーマンスの両方を損なう。
LLMSの広大なパラメーター空間でBFAの重要なパラメーターを特定することは、重要な課題をもたらします。
以前の研究では、トランスベースのアーキテクチャは、従来の深いニューラルネットワークと比較してBFAに対して本質的に堅牢であることが示唆されていますが、この仮定に挑戦しています。
初めて、わずか3つのビットフリップが数十億のパラメーターを備えたLLMで壊滅的な性能低下を引き起こす可能性があることを実証します。
現在のBFA技術は、広大なパラメーター空間内の重要なパラメーターを効率的に識別することが難しいため、この脆弱性を活用するには不十分です。
これに対処するために、LLMに合わせて調整された新しいフレームワークであるAttention Breakerを提案します。これにより、パラメーター空間を効率的に移動して重要なパラメーターを特定できます。
さらに、検索をさらに改良するように設計された進化的最適化戦略であるGenBFAを紹介し、効率的かつ効果的な攻撃のために最も重要なビットを分離します。
経験的な結果は、LLMSの注意ブレーカーに対する重大な脆弱性を明らかにしています。
たとえば、llama3-8b-instruct 8ビット量子化された(w8)モデルの3つのビットフリップ(4.129 x 10^-9%の合計パラメーターの4.129 x 10^-9%)は、完全なパフォーマンス崩壊をもたらします:MMLUタスクの精度は67.3%から低下します
12.6から4.72 x 10^5の0%、およびwikitext Perplexity Skyrockets。
これらの発見は、LLMアーキテクチャ内の重要な脆弱性を明らかにし、活用する上での注意ブレーカーの有効性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have revolutionized natural language processing (NLP), excelling in tasks like text generation and summarization. However, their increasing adoption in mission-critical applications raises concerns about hardware-based threats, particularly bit-flip attacks (BFAs). BFAs, enabled by fault injection methods such as Rowhammer, target model parameters in memory, compromising both integrity and performance. Identifying critical parameters for BFAs in the vast parameter space of LLMs poses significant challenges. While prior research suggests transformer-based architectures are inherently more robust to BFAs compared to traditional deep neural networks, we challenge this assumption. For the first time, we demonstrate that as few as three bit-flips can cause catastrophic performance degradation in an LLM with billions of parameters. Current BFA techniques are inadequate for exploiting this vulnerability due to the difficulty of efficiently identifying critical parameters within the immense parameter space. To address this, we propose AttentionBreaker, a novel framework tailored for LLMs that enables efficient traversal of the parameter space to identify critical parameters. Additionally, we introduce GenBFA, an evolutionary optimization strategy designed to refine the search further, isolating the most critical bits for an efficient and effective attack. Empirical results reveal the profound vulnerability of LLMs to AttentionBreaker. For example, merely three bit-flips (4.129 x 10^-9% of total parameters) in the LLaMA3-8B-Instruct 8-bit quantized (W8) model result in a complete performance collapse: accuracy on MMLU tasks drops from 67.3% to 0%, and Wikitext perplexity skyrockets from 12.6 to 4.72 x 10^5. These findings underscore the effectiveness of AttentionBreaker in uncovering and exploiting critical vulnerabilities within LLM architectures.

arxiv情報

著者 Sanjay Das,Swastik Bhattacharya,Souvik Kundu,Shamik Kundu,Anand Menon,Arnab Raha,Kanad Basu
発行日 2025-02-07 16:24:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク