要約
大規模言語モデル (LLM) の計算コストとエネルギー消費を削減するために、スキミング ベースのアクセラレーションは、意味的に重要なトークンを保持しながら、入力シーケンスの重要でないトークンを LLM の層に沿って段階的に動的に削除します。
しかし、私たちの研究により、このアクセラレーションがサービス拒否 (DoS) 攻撃に対して脆弱である可能性があることが初めて明らかになりました。
このペーパーでは、スキミングベースの LLM の所有者が加速スキームの堅牢性を理解し、測定するのに役立つ一般的なフレームワークである No-Skim を提案します。
具体的には、私たちのフレームワークは、キャラクターレベルとトークンレベルで最小限の目立たない摂動を検索し、残りのトークン比率を十分に高める敵対的な入力を生成するため、計算コストとエネルギー消費が増加します。
GLUE ベンチマークで BERT や RoBERTa を含むさまざまな LLM アーキテクチャにおけるスキミング アクセラレーションの脆弱性を体系的に評価します。
最悪の場合、ノースキムによって検出された摂動により、LLM のランニングコストが平均 145% 以上大幅に増加します。
さらに、No-Skim は評価の枠組みをさまざまなシナリオに拡張し、さまざまなレベルの知識でも評価を実施できるようにします。
要約(オリジナル)
To reduce the computation cost and the energy consumption in large language models (LLM), skimming-based acceleration dynamically drops unimportant tokens of the input sequence progressively along layers of the LLM while preserving the tokens of semantic importance. However, our work for the first time reveals the acceleration may be vulnerable to Denial-of-Service (DoS) attacks. In this paper, we propose No-Skim, a general framework to help the owners of skimming-based LLM to understand and measure the robustness of their acceleration scheme. Specifically, our framework searches minimal and unnoticeable perturbations at character-level and token-level to generate adversarial inputs that sufficiently increase the remaining token ratio, thus increasing the computation cost and energy consumption. We systematically evaluate the vulnerability of the skimming acceleration in various LLM architectures including BERT and RoBERTa on the GLUE benchmark. In the worst case, the perturbation found by No-Skim substantially increases the running cost of LLM by over 145% on average. Moreover, No-Skim extends the evaluation framework to various scenarios, making the evaluation conductible with different level of knowledge.
arxiv情報
著者 | Shengyao Zhang,Mi Zhang,Xudong Pan,Min Yang |
発行日 | 2023-12-15 02:42:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google