Denial-of-Service Poisoning Attacks against Large Language Models

要約

最近の研究では、LLM がサービス拒否 (DoS) 攻撃に対して脆弱であることが示されています。DoS 攻撃では、スペル ミスや非セマンティック プロンプトなどの敵対的な入力によって、[EOS] トークンが生成されずに無限の出力がトリガーされます。
これらの攻撃により、潜在的に遅延が大きくなり、他のユーザーやタスクが LLM サービスにアクセスできなくなる可能性があります。
ただし、音声からテキストへのインターフェイス (ロボットへの音声コマンドなど) がある場合、音声によるスペル ミスや非セマンティック プロンプトの導入が難しいため、このような DoS 攻撃の実行は困難になります。
これらのシナリオにおける単純な DoS 攻撃は、モデルに「Hello を繰り返し続ける」ように指示することですが、自然な指示のみに依存すると出力長が制限され、LLM の教師あり微調整 (SFT) データの最大長によって制限されることがわかります。
この制限を克服するために、LLM に対するポイズニング ベースの DoS (P-DoS) 攻撃を提案します。これは、DoS 目的で設計された単一のポイズニングされたサンプルを注入することで出力長の制限を突破できることを実証します。
たとえば、ポイズニングされたサンプルは、1 ドル未満を使用して (OpenAI の微調整 API 経由で) GPT-4o および GPT-4o mini を攻撃することに成功し、最大推論長 (ポイズニング前の 0.5K トークンと比較して 16K トークン) まで繰り返し出力を引き起こす可能性があります。
さらに、オープンソース LLM に対して包括的なアブレーション研究を実行し、攻撃者が微調整データセットとアルゴリズムの両方を制御できる LLM エージェントに手法を拡張します。
私たちの調査結果は、LLM を保護するために P-DoS 攻撃に対する防御が緊急に必要であることを強調しています。
私たちのコードは https://github.com/sail-sg/P-DoS で入手できます。

要約(オリジナル)

Recent studies have shown that LLMs are vulnerable to denial-of-service (DoS) attacks, where adversarial inputs like spelling errors or non-semantic prompts trigger endless outputs without generating an [EOS] token. These attacks can potentially cause high latency and make LLM services inaccessible to other users or tasks. However, when there are speech-to-text interfaces (e.g., voice commands to a robot), executing such DoS attacks becomes challenging, as it is difficult to introduce spelling errors or non-semantic prompts through speech. A simple DoS attack in these scenarios would be to instruct the model to ‘Keep repeating Hello’, but we observe that relying solely on natural instructions limits output length, which is bounded by the maximum length of the LLM’s supervised finetuning (SFT) data. To overcome this limitation, we propose poisoning-based DoS (P-DoS) attacks for LLMs, demonstrating that injecting a single poisoned sample designed for DoS purposes can break the output length limit. For example, a poisoned sample can successfully attack GPT-4o and GPT-4o mini (via OpenAI’s finetuning API) using less than $1, causing repeated outputs up to the maximum inference length (16K tokens, compared to 0.5K before poisoning). Additionally, we perform comprehensive ablation studies on open-source LLMs and extend our method to LLM agents, where attackers can control both the finetuning dataset and algorithm. Our findings underscore the urgent need for defenses against P-DoS attacks to secure LLMs. Our code is available at https://github.com/sail-sg/P-DoS.

arxiv情報

著者 Kuofeng Gao,Tianyu Pang,Chao Du,Yong Yang,Shu-Tao Xia,Min Lin
発行日 2024-10-14 17:39:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク