Fake Alignment: Are LLMs Really Aligned Well?

要約

大規模言語モデル (LLM) における安全性の懸念に対する意識の高まりにより、現在の研究活動における安全性の評価に対する大きな関心が高まっています。
この研究では、LLM の評価に関する興味深い問題、つまり、多肢選択式の質問と自由回答式の質問の間のパフォーマンスの大幅な差異を調査しています。
ジェイルブレイク攻撃パターンに関する研究に触発され、これは一般化の不一致によって引き起こされると私たちは主張します。
つまり、LLM は安全性の複雑な概念を包括的に理解していません。
代わりに、自由形式の安全性に関する質問に対して何を答えるかを記憶するだけなので、他の形式の安全性テストを解決することはできません。
私たちはこの現象を偽アライメントと呼び、LLM におけるその存在を経験的に検証するための比較ベンチマークを構築します。
このような偽の位置合わせにより、以前の評価プロトコルの信頼性が低くなります。
これに対処するために、FAEF フレームワークと 2 つの新しいメトリクス\textemdash 一貫性スコア (CS) と一貫性安全スコア (CSS) を導入します。これらは、2 つの相補的な評価形式を共同で評価して、偽の調整を定量化し、修正されたパフォーマンス推定値を取得します。
FAEF を 14 の広く使用されている LLM に適用すると、安全性が謳われているいくつかのモデルが実際には十分に調整されていないことが明らかになります。
私たちの研究は、一般的な調整手法の潜在的な限界を浮き彫りにしています。

要約(オリジナル)

The growing awareness of safety concerns in large language models (LLMs) has sparked considerable interest in the evaluation of safety within current research endeavors. This study investigates an interesting issue pertaining to the evaluation of LLMs, namely the substantial discrepancy in performance between multiple-choice questions and open-ended questions. Inspired by research on jailbreak attack patterns, we argue this is caused by mismatched generalization. That is, the LLM does not have a comprehensive understanding of the complex concept of safety. Instead, it only remembers what to answer for open-ended safety questions, which makes it unable to solve other forms of safety tests. We refer to this phenomenon as fake alignment and construct a comparative benchmark to empirically verify its existence in LLMs. Such fake alignment renders previous evaluation protocols unreliable. To address this, we introduce the FAEF framework and two novel metrics\textemdash Consistency Score (CS) and Consistent Safety Score (CSS), which jointly assess two complementary forms of evaluation to quantify fake alignment and obtain corrected performance estimates. Applying FAEF to 14 widely-used LLMs reveals several models with purported safety are poorly aligned in practice. Our work highlights potential limitations in prevailing alignment methodologies.

arxiv情報

著者 Yixu Wang,Yan Teng,Kexin Huang,Chengqi Lyu,Songyang Zhang,Wenwei Zhang,Xingjun Ma,Yingchun Wang
発行日 2023-11-10 08:01:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク