Don’t Command, Cultivate: An Exploratory Study of System-2 Alignment

要約

o1 システム カードは、o1 モデルが OpenAI 内で最も堅牢であることを識別します。その決定的な特徴は、迅速で直感的な思考から、ゆっくりとしたより慎重な推論への移行です。
この観察は、モデルの安全性に対するシステム 2 の思考パターンの影響を調査する動機になりました。
予備調査では、敵対的な自然言語プロンプトと数学的エンコーディング プロンプトを使用した複雑なジェイルブレイク攻撃シナリオを含む、o1 モデルの安全性評価を実施しました。
私たちの調査結果は、o1 モデルが比較的改善された安全性能を示していることを示しています。
ただし、特に数学的エンコードを使用したジェイルブレイク攻撃に対しては依然として脆弱性が存在します。
詳細なケース分析を通じて、o1 モデルの応答の特定のパターンを特定しました。
また、迅速なエンジニアリングと監視された微調整技術を使用して、オープンソース モデルにおける System-2 の安全性の調整についても調査しました。
実験結果は、モデルがユーザーのリクエストを注意深く精査することを促すいくつかの簡単な方法がモデルの安全性にとって有益であることを示しています。
さらに、安全性の調整を強化するためのプロセス監視の実施計画を提案しました。
実装の詳細と実験結果は将来のバージョンで提供される予定です。

要約(オリジナル)

The o1 system card identifies the o1 models as the most robust within OpenAI, with their defining characteristic being the progression from rapid, intuitive thinking to slower, more deliberate reasoning. This observation motivated us to investigate the influence of System-2 thinking patterns on model safety. In our preliminary research, we conducted safety evaluations of the o1 model, including complex jailbreak attack scenarios using adversarial natural language prompts and mathematical encoding prompts. Our findings indicate that the o1 model demonstrates relatively improved safety performance; however, it still exhibits vulnerabilities, particularly against jailbreak attacks employing mathematical encoding. Through detailed case analysis, we identified specific patterns in the o1 model’s responses. We also explored the alignment of System-2 safety in open-source models using prompt engineering and supervised fine-tuning techniques. Experimental results show that some simple methods to encourage the model to carefully scrutinize user requests are beneficial for model safety. Additionally, we proposed a implementation plan for process supervision to enhance safety alignment. The implementation details and experimental results will be provided in future versions.

arxiv情報

著者 Yuhang Wang,Jitao Sang
発行日 2024-11-27 14:18:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク