ERPO: Advancing Safety Alignment via Ex-Ante Reasoning Preference Optimization

要約

近年の大規模言語モデル（LLM）の進歩により、人工知能の進歩が加速しているが、有害なコンテンツを生成する可能性があるため、安全性に重大な課題がある。既存のアライメント手法は、多様な安全シナリオをカバーするのに苦労することが多く、敵対的な攻撃に対して脆弱なままである。本研究では、LLMにChain-of-Thoughtによる明示的な先制推論を装備し、事前に定義された安全ルールを埋め込むことで安全判断の明確な根拠を提供する、新しい安全アライメントフレームワークであるEx-Ante Reasoning Preference Optimization (ERPO)を提案する。具体的には、我々のアプローチは3つの段階から構成される。第一に、構築された推論モジュールを用いた教師付き微調整(SFT)により、モデルにEx-Ante推論を装備させる。第二に、直接プリファレンス最適化(DPO)により、安全性、有用性、効率性を向上させる。第三に、長さ制御された反復プリファレンス最適化戦略により、推論の待ち時間を緩和する。複数のオープンソースLLMを用いた実験により、ERPOが応答効率を維持しながら安全性能を大幅に向上させることが実証された。

要約(オリジナル)

Recent advancements in large language models (LLMs) have accelerated progress toward artificial general intelligence, yet their potential to generate harmful content poses critical safety challenges. Existing alignment methods often struggle to cover diverse safety scenarios and remain vulnerable to adversarial attacks. In this work, we propose Ex-Ante Reasoning Preference Optimization (ERPO), a novel safety alignment framework that equips LLMs with explicit preemptive reasoning through Chain-of-Thought and provides clear evidence for safety judgments by embedding predefined safety rules. Specifically, our approach consists of three stages: first, equipping the model with Ex-Ante reasoning through supervised fine-tuning (SFT) using a constructed reasoning module; second, enhancing safety, usefulness, and efficiency via Direct Preference Optimization (DPO); and third, mitigating inference latency with a length-controlled iterative preference optimization strategy. Experiments on multiple open-source LLMs demonstrate that ERPO significantly enhances safety performance while maintaining response efficiency.

arxiv情報

著者	Kehua Feng,Keyan Ding,Jing Yu,Menghan Li,Yuhao Wang,Tong Xu,Xinda Wang,Qiang Zhang,Huajun Chen
発行日	2025-04-03 16:07:38+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

ERPO: Advancing Safety Alignment via Ex-Ante Reasoning Preference Optimization

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー