Leveraging Reasoning with Guidelines to Elicit and Utilize Knowledge for Enhancing Safety Alignment

要約

安全なLLMSのトレーニングは、最も重要な研究課題の1つです。
ただし、一般的に使用される方法である拒否トレーニング(RT)は、さまざまなOODのジェイルブレイク攻撃に一般化するのに苦労しています。
この問題に対処するために、多くの安全トレーニング方法が提案されています。
彼らは貴重な洞察を提供しますが、OOD攻撃がRTモデルの能力を本当に超えているかどうかを調査することにより、この一連の研究を補完することを目指しています。
Bonで評価を実施すると、Nが増加するにつれて一般化に関する大幅な改善が観察されます。
これは、モデルが十分な安全性関連の潜在的な知識を持っていることを強調していますが、RTはOOD攻撃に対処する際にこの知識を一貫して引き出すことができません。
ドメインの適応に基づくさらなる分析により、直接的な拒否によるトレーニングにより、モデルが表面的なショートカットに依存し、非ロバスト表現マッピングの学習が生じることが明らかになりました。
調査結果に基づいて、各クエリの安全推論を実行するためのトレーニングモデルを提案します。
推論監督は、モデルがより多くの計算を実行することを奨励し、推論を通じて明示的に誘発し、潜在的な知識を使用することを奨励します。
これを達成するために、私たちは前のガイドラインに基づいて推論監督を統合し、モデルをそれらと連携させるためにモデルをトレーニングし、それによって多様な観点から潜在的な知識を効果的に誘発し、利用します。
広範な実験は、私たちの方法がOOD攻撃に対する一般化パフォーマンスを大幅に改善することを示しています。

要約(オリジナル)

Training safe LLMs is one of the most critical research challenge. However, the commonly used method, Refusal Training (RT), struggles to generalize against various OOD jailbreaking attacks. Many safety training methods have been proposed to address this issue. While they offer valuable insights, we aim to complement this line of research by investigating whether OOD attacks truly exceed the capability of RT model. Conducting evaluation with BoN, we observe significant improvements on generalization as N increases. This underscores that the model possesses sufficient safety-related latent knowledge, but RT fails to consistently elicit this knowledge when addressing OOD attacks. Further analysis based on domain adaptation reveals that training with direct refusal causes model to rely on superficial shortcuts, resulting in learning of non-robust representation mappings. Based on our findings, we propose training model to perform safety reasoning for each query. Reasoning supervision encourages model to perform more computations, explicitly eliciting and using latent knowledge through reasoning. To achieve this, we synthesize reasoning supervision based on pre-guidelines, training the model to reason in alignment with them, thereby effectively eliciting and utilizing latent knowledge from diverse perspectives. Extensive experiments show that our method significantly improves generalization performance against OOD attacks.

arxiv情報

著者 Haoyu Wang,Zeyu Qin,Li Shen,Xueqian Wang,Minhao Cheng,Dacheng Tao
発行日 2025-02-06 13:01:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク