Stepwise Reasoning Error Disruption Attack of LLMs

要約

大規模言語モデル (LLM) は、複雑な推論タスクにおいて目覚ましい進歩を遂げていますが、推論プロセスにおけるその安全性と堅牢性については依然として十分に解明されていません。
LLM 推論に対する既存の攻撃は、特定の設定や知覚不能性の欠如によって制約されており、その実現可能性と一般化可能性が制限されています。
これらの課題に対処するために、私たちは Stepwise rEasoning Error Disruption (SEED) 攻撃を提案します。この攻撃は、前の推論ステップに巧妙にエラーを注入して、モデルを誤解させて、その後の誤った推論と最終的な答えを導き出します。
以前の方法とは異なり、SEED はゼロショットおよび少数ショット設定と互換性があり、自然な推論フローを維持し、命令を変更することなく秘密裏に実行できるようにします。
4 つの異なるモデルにわたる 4 つのデータセットに対する広範な実験により、SEED の有効性が実証され、推論プロセスの中断に対する LLM の脆弱性が明らかになりました。
これらの発見は、実際のアプリケーションで安全性を確保するには、LLM 推論の堅牢性にさらに注意を払う必要があることを強調しています。

要約(オリジナル)

Large language models (LLMs) have made remarkable strides in complex reasoning tasks, but their safety and robustness in reasoning processes remain underexplored. Existing attacks on LLM reasoning are constrained by specific settings or lack of imperceptibility, limiting their feasibility and generalizability. To address these challenges, we propose the Stepwise rEasoning Error Disruption (SEED) attack, which subtly injects errors into prior reasoning steps to mislead the model into producing incorrect subsequent reasoning and final answers. Unlike previous methods, SEED is compatible with zero-shot and few-shot settings, maintains the natural reasoning flow, and ensures covert execution without modifying the instruction. Extensive experiments on four datasets across four different models demonstrate SEED’s effectiveness, revealing the vulnerabilities of LLMs to disruptions in reasoning processes. These findings underscore the need for greater attention to the robustness of LLM reasoning to ensure safety in practical applications.

arxiv情報

著者 Jingyu Peng,Maolin Wang,Xiangyu Zhao,Kai Zhang,Wanyu Wang,Pengyue Jia,Qidong Liu,Ruocheng Guo,Qi Liu
発行日 2024-12-16 16:20:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク