要約
高度な推論機能の導入により、特に数学とコーディングベンチマークでの大規模な言語モデルの問題解決パフォーマンスが向上しました。
ただし、これらの推論モデルが、非合理的なカウンターパートよりも敵対的な迅速な攻撃に対して多かれ少なかれ脆弱であるかどうかは不明のままです。
この作業では、高度な推論モデルの弱点の体系的な評価を提示します。
実験データを使用して、平均して推論モデルは、非合理モデル(42.51 \%vs 45.53 \%攻撃成功率が優れている)よりも\ empond {わずかに堅牢}であることがわかります。
ただし、この全体的な傾向は、カテゴリ固有の大きな違いをマスクします。特定の攻撃タイプについては、推論モデルは実質的に\ emph {より脆弱}(たとえば、攻撃プロンプトで最大32パーセントポイント悪化します)が、他の人にとっては顕著に\ emphust}(例えば、より堅牢}(例えば、逆走行障害)が優れています。
私たちの調査結果は、言語モデルにおける高度な推論の微妙なセキュリティへの影響を強調し、多様な敵対的な技術にわたるストレステストの安全性の重要性を強調しています。
要約(オリジナル)
The introduction of advanced reasoning capabilities have improved the problem-solving performance of large language models, particularly on math and coding benchmarks. However, it remains unclear whether these reasoning models are more or less vulnerable to adversarial prompt attacks than their non-reasoning counterparts. In this work, we present a systematic evaluation of weaknesses in advanced reasoning models compared to similar non-reasoning models across a diverse set of prompt-based attack categories. Using experimental data, we find that on average the reasoning-augmented models are \emph{slightly more robust} than non-reasoning models (42.51\% vs 45.53\% attack success rate, lower is better). However, this overall trend masks significant category-specific differences: for certain attack types the reasoning models are substantially \emph{more vulnerable} (e.g., up to 32 percentage points worse on a tree-of-attacks prompt), while for others they are markedly \emph{more robust} (e.g., 29.8 points better on cross-site scripting injection). Our findings highlight the nuanced security implications of advanced reasoning in language models and emphasize the importance of stress-testing safety across diverse adversarial techniques.
arxiv情報
著者 | Arjun Krishna,Aaditya Rastogi,Erick Galinkin |
発行日 | 2025-06-16 17:32:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google