Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization

要約

人間が超人的モデルの弱い監督者として機能する超整合は、大規模な言語モデル(LLM)の急速な発展において重要な問題になっています。
最近の研究は、弱いモデルを使用して強力なモデルを監督することでこの問題を事前に研究しており、弱く監視されている強力な学生が、アラインメントターゲットに向かって弱い教師を一貫して上回り、弱い一般化現象につながることを発見しました。
しかし、このような有望な現象の背後にあるのは、弱いモデルで知られている領域でよく整列しているが弱いモデルでは不整合の行動を生成することで弱いモデルを欺くという弱いモデルが弱いモデルを欺くかどうかにかかわらず、このような有望な現象の背後にあるのではないかと心配しています。
このセキュリティの問題を特定のが現実的な多目的アライメントケースで調査するための最初の一歩を踏み出します。ここでは、互いに矛盾するいくつかのアライメントターゲットが存在する可能性があります(例:V.S.無害)。
そのような場合、強力なモデルは、別の次元のより高い報酬と引き換えに、あるアライメントディメンション内の弱いモデルには知られているが、彼らに知られている領域で意図的に間違いを犯す可能性があるかどうかを調査することを目指しています。
報酬モデリングと優先最適化シナリオの両方で広範な実験を通じて、(1)すべての設定に弱い欺ception現象が存在することがわかります。
(2)弱いモデルと強いモデルの間の能力ギャップが増加するにつれて、欺ceptionは激化します。
(3)中間モデルを使用したブートストラップは、その有効性が限られたままですが、ある程度欺ceptionを軽減できます。
私たちの仕事は、超整列の真の信頼性にもっと注意を払う緊急の必要性を強調しています。

要約(オリジナル)

Superalignment, where humans act as weak supervisors for superhuman models, has become a crucial problem with the rapid development of Large Language Models (LLMs). Recent work has preliminarily studied this problem by using weak models to supervise strong models, and discovered that weakly supervised strong students can consistently outperform weak teachers towards the alignment target, leading to a weak-to-strong generalization phenomenon. However, we are concerned that behind such a promising phenomenon, whether there exists an issue of weak-to-strong deception, where strong models deceive weak models by exhibiting well-aligned in areas known to weak models but producing misaligned behaviors in cases weak models do not know. We take an initial step towards exploring this security issue in a specific but realistic multi-objective alignment case, where there may be some alignment targets conflicting with each other (e.g., helpfulness v.s. harmlessness). We aim to explore whether, in such cases, strong models might deliberately make mistakes in areas known to them but unknown to weak models within one alignment dimension, in exchange for a higher reward in another dimension. Through extensive experiments in both the reward modeling and preference optimization scenarios, we find: (1) The weak-to-strong deception phenomenon exists across all settings. (2) The deception intensifies as the capability gap between weak and strong models increases. (3) Bootstrapping with an intermediate model can mitigate the deception to some extent, though its effectiveness remains limited. Our work highlights the urgent need to pay more attention to the true reliability of superalignment.

arxiv情報

著者 Wenkai Yang,Shiqi Shen,Guangyao Shen,Wei Yao,Yong Liu,Zhi Gong,Yankai Lin,Ji-Rong Wen
発行日 2025-02-28 13:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク