SAFEPATH: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment

要約

大規模な推論モデル(LRM)は、複雑な問題解決のための強力なツールになりましたが、それらの構造化された推論経路は、有害なプロンプトにさらされると危険な出力につながる可能性があります。
既存の安全アライメント方法は、有害な出力を減少させますが、推論の深さを分解し、複雑なマルチステップタスクの大幅なトレードオフにつながり、洗練された脱獄攻撃に対して脆弱なままです。
これに対処するために、SafePathを紹介します。これは、有害なプロセスを監視していない残りの推論プロセスを残しながら、有害なプロンプトに対応して、推論の開始時にLRMを微調整する軽量アライメント方法です。
複数のベンチマークにわたる経験的結果は、SafePathが推論パフォーマンスを維持しながら有害な出力を効果的に減らすことを示しています。
具体的には、SafePathは有害な反応を最大90.0%減らし、DeepSeek-R1-Distill-Llama-8Bモデルでの脱獄の試みの83.3%をブロックしますが、直接拒否よりも295.9倍の計算量が少なく、セーフチェーンよりも314.1x少ないことが必要です。
さらに、微調整を必要としないゼロショットバリアントを紹介します。
さらに、LLMSの既存のメソッドが、推論中心のモデルに適用された場合にどのように一般化または失敗するかについての包括的な分析を提供し、より安全なAIの重要なギャップと新しい方向性を明らかにします。

要約(オリジナル)

Large Reasoning Models (LRMs) have become powerful tools for complex problem solving, but their structured reasoning pathways can lead to unsafe outputs when exposed to harmful prompts. Existing safety alignment methods reduce harmful outputs but can degrade reasoning depth, leading to significant trade-offs in complex, multi-step tasks, and remain vulnerable to sophisticated jailbreak attacks. To address this, we introduce SAFEPATH, a lightweight alignment method that fine-tunes LRMs to emit a short, 8-token Safety Primer at the start of their reasoning, in response to harmful prompts, while leaving the rest of the reasoning process unsupervised. Empirical results across multiple benchmarks indicate that SAFEPATH effectively reduces harmful outputs while maintaining reasoning performance. Specifically, SAFEPATH reduces harmful responses by up to 90.0% and blocks 83.3% of jailbreak attempts in the DeepSeek-R1-Distill-Llama-8B model, while requiring 295.9x less compute than Direct Refusal and 314.1x less than SafeChain. We further introduce a zero-shot variant that requires no fine-tuning. In addition, we provide a comprehensive analysis of how existing methods in LLMs generalize, or fail, when applied to reasoning-centric models, revealing critical gaps and new directions for safer AI.

arxiv情報

著者 Wonje Jeung,Sangyeon Yoon,Minsuk Kahng,Albert No
発行日 2025-05-20 17:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク