Emulated Disalignment: Safety Alignment for Large Language Models May Backfire!

要約

大規模言語モデル (LLM) は、人間との安全な会話を確保するために安全調整を受ける必要があります。
ただし、この研究では、推論時間攻撃フレームワークを導入し、安全性の調整が敵対的な操作の下で意図せずに有害な結果を促進する可能性があることを実証します。
Emulated Disalignment (ED) と呼ばれるこのフレームワークは、出力空間でオープンソースの事前トレーニング済みおよび安全調整済みの言語モデルのペアを逆に組み合わせて、トレーニングなしで有害な言語モデルを生成します。
3 つのデータセットと 4 つのモデル ファミリ (Llama-1、Llama-2、Mistral、Alpaca) にわたる ED の実験では、ED が事前トレーニング済みモデルの有害性を 2 倍にし、強力なベースラインを上回り、43 モデルで最高の有害率を達成することが示されました。
48 の評価サブセットに大差をつけました。
重要なことに、私たちの調査結果は、安全性の調整後であっても、オープンソース言語モデルの実践を再評価することの重要性を強調しています。

要約(オリジナル)

Large language models (LLMs) need to undergo safety alignment to ensure safe conversations with humans. However, in this work, we introduce an inference-time attack framework, demonstrating that safety alignment can also unintentionally facilitate harmful outcomes under adversarial manipulation. This framework, named Emulated Disalignment (ED), adversely combines a pair of open-source pre-trained and safety-aligned language models in the output space to produce a harmful language model without any training. Our experiments with ED across three datasets and four model families (Llama-1, Llama-2, Mistral, and Alpaca) show that ED doubles the harmfulness of pre-trained models and outperforms strong baselines, achieving the highest harmful rate in 43 out of 48 evaluation subsets by a large margin. Crucially, our findings highlight the importance of reevaluating the practice of open-sourcing language models even after safety alignment.

arxiv情報

著者 Zhanhui Zhou,Jie Liu,Zhichen Dong,Jiaheng Liu,Chao Yang,Wanli Ouyang,Yu Qiao
発行日 2024-02-19 18:16:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク