OVERTHINKING: Slowdown Attacks on Reasoning LLMs

要約

我々は推論LLMに依存するアプリケーションのオーバーヘッドを増加させる – 我々は、文脈的に正しい答えを提供しながら、ユーザークエリに応答するために、推論トークンの増幅された数、すなわち「オーバーシンク」を費やすようにモデルを強制する。敵は推論時間中に推論LLM(例えばRAGアプリケーション)が使用する公開コンテンツにおとり推論問題を注入することでOVERTHINK攻撃を行う。我々のおとり問題(例えばマルコフ決定過程)の性質上、修正されたテキストは安全ガードレールに違反しない。我々は、FreshQAとSQuADデータセットのクローズド(OpenAI o1、o1-mini、o3-mini)とオープン(DeepSeek R1)の重み推論モデルで我々の攻撃を評価した。その結果、最大46倍の速度低下と、モデル間での攻撃の高い移植性が示された。アプリケーションを保護するために、LLMベースとシステム設計アプローチを活用した防御について議論し、実装する。最後に、推論モデルを運用するサードパーティアプリケーションのコストを増大させる可能性のあるOVERTHINK攻撃の社会的、財政的、エネルギー的影響について議論する。

要約(オリジナル)

We increase overhead for applications that rely on reasoning LLMs-we force models to spend an amplified number of reasoning tokens, i.e., ‘overthink’, to respond to the user query while providing contextually correct answers. The adversary performs an OVERTHINK attack by injecting decoy reasoning problems into the public content that is used by the reasoning LLM (e.g., for RAG applications) during inference time. Due to the nature of our decoy problems (e.g., a Markov Decision Process), modified texts do not violate safety guardrails. We evaluated our attack across closed-(OpenAI o1, o1-mini, o3-mini) and open-(DeepSeek R1) weights reasoning models on the FreshQA and SQuAD datasets. Our results show up to 46x slowdown and high transferability of the attack across models. To protect applications, we discuss and implement defenses leveraging LLM-based and system design approaches. Finally, we discuss societal, financial, and energy impacts of OVERTHINK attack which could amplify the costs for third party applications operating reasoning models.

arxiv情報

著者 Abhinav Kumar,Jaechul Roh,Ali Naseh,Marzena Karpinska,Mohit Iyyer,Amir Houmansadr,Eugene Bagdasarian
発行日 2025-02-04 18:12:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.LG パーマリンク