要約
LLMS-We Forceモデルの推論に依存しているアプリケーションのオーバーヘッドを増やして、コンテキスト的に正解を提供しながらユーザークエリに応答するために、増幅された数の推論トークン、つまり「オーバーシンク」を費やします。
敵は、推論時間中に推論LLM(例えば、RAGアプリケーションで)で使用される公開コンテンツにデコイの推論を注入することにより、オーバーシンク攻撃を実行します。
おとりの問題の性質上(例:マルコフの決定プロセス)、修正されたテキストは安全ガードレールに違反しません。
閉じた(Openai O1、O1-Mini、O3-Mini)およびOpen-(DeepSeek R1)Weights Teasoning ModelsをfreshqaおよびSquadデータセットで攻撃を評価しました。
私たちの結果は、FreshQAデータセットで最大18倍の減速と、Squad Datasetで46倍の減速を示しています。
攻撃は、モデル間の高い転送可能性も示しています。
アプリケーションを保護するために、LLMベースとシステム設計のアプローチを活用する防御について議論および実装します。
最後に、私たちは、推論モデルを操作するサードパーティアプリケーションのコストを増幅する可能性のある過剰考え攻撃の社会的、財政的、およびエネルギーの影響について議論します。
要約(オリジナル)
We increase overhead for applications that rely on reasoning LLMs-we force models to spend an amplified number of reasoning tokens, i.e., ‘overthink’, to respond to the user query while providing contextually correct answers. The adversary performs an OVERTHINK attack by injecting decoy reasoning problems into the public content that is used by the reasoning LLM (e.g., for RAG applications) during inference time. Due to the nature of our decoy problems (e.g., a Markov Decision Process), modified texts do not violate safety guardrails. We evaluated our attack across closed-(OpenAI o1, o1-mini, o3-mini) and open-(DeepSeek R1) weights reasoning models on the FreshQA and SQuAD datasets. Our results show up to 18x slowdown on FreshQA dataset and 46x slowdown on SQuAD dataset. The attack also shows high transferability across models. To protect applications, we discuss and implement defenses leveraging LLM-based and system design approaches. Finally, we discuss societal, financial, and energy impacts of OVERTHINK attack which could amplify the costs for third-party applications operating reasoning models.
arxiv情報
著者 | Abhinav Kumar,Jaechul Roh,Ali Naseh,Marzena Karpinska,Mohit Iyyer,Amir Houmansadr,Eugene Bagdasarian |
発行日 | 2025-02-05 17:58:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google