STAIR: Improving Safety Alignment with Introspective Reasoning

要約

大規模言語モデル(LLM)の安全性と無害性を保証することは、アプリケーションにおける性能と同様に重要となっている。しかしながら、既存の安全性アライメント手法は、主に悪意のあるクエリに対する直接的な拒否に依存しているため、安全性と性能のトレードオフやジェイルブレイク攻撃の影響を受けやすいという問題を抱えている。本論文では、STAIRを提案する。STAIRはSafeTy AlignmentとItrospective Reasoningを統合した新しいフレームワークである。STAIRは、LLMが安全性を認識しながら思考連鎖(CoT)推論を自己改善することにより、段階的な分析を通じて安全リスクを特定することを可能にする。STAIRは、まずモデルに構造化推論機能を持たせ、次に新たに提案した安全情報モンテカルロ木探索(SI-MCTS)を用いて生成されたステップレベルの推論データに対して、繰り返しプリファレンス最適化を行うことで、安全性アライメントを進めます。さらに、このデータに基づいてプロセス報酬モデルを学習し、改善された応答のテスト時間探索をガイドする。広範な実験により、STAIRは、直感的なアライメント戦略と比較して、有用性をより良く保ちながら、有害な出力を効果的に軽減することが示される。テスト時間スケーリングにより、STAIRは一般的な脱獄攻撃に対してClaude-3.5に匹敵する安全性能を達成する。本研究の関連リソースはhttps://github.com/thu-ml/STAIR。

要約(オリジナル)

Ensuring the safety and harmlessness of Large Language Models (LLMs) has become equally critical as their performance in applications. However, existing safety alignment methods typically suffer from safety-performance trade-offs and the susceptibility to jailbreak attacks, primarily due to their reliance on direct refusals for malicious queries. In this paper, we propose STAIR, a novel framework that integrates SafeTy Alignment with Itrospective Reasoning. We enable LLMs to identify safety risks through step-by-step analysis by self-improving chain-of-thought (CoT) reasoning with safety awareness. STAIR first equips the model with a structured reasoning capability and then advances safety alignment via iterative preference optimization on step-level reasoning data generated using our newly proposed Safety-Informed Monte Carlo Tree Search (SI-MCTS). We further train a process reward model on this data to guide test-time searches for improved responses. Extensive experiments show that STAIR effectively mitigates harmful outputs while better preserving helpfulness, compared to instinctive alignment strategies. With test-time scaling, STAIR achieves a safety performance comparable to Claude-3.5 against popular jailbreak attacks. Relevant resources in this work are available at https://github.com/thu-ml/STAIR.

arxiv情報

著者 Yichi Zhang,Siyuan Zhang,Yao Huang,Zeyu Xia,Zhengwei Fang,Xiao Yang,Ranjie Duan,Dong Yan,Yinpeng Dong,Jun Zhu
発行日 2025-02-04 15:02:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク