Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models

要約

警告: この文書には有害な表現の例が含まれており、読者の判断は推奨されません。
強力なラージ言語モデル (LLM) のオープン リリースが増加することで、データの注釈と計算に不可欠なコストが削減され、ダウンストリーム アプリケーションの開発が容易になりました。
AI の安全性を確保するために、これらのモデルを悪意のある使用 (主にハード プロンプト攻撃) から守るために、広範な安全調整措置が実施されています。
しかし、一見弾力のある鎧の表面の下には、影が潜んでいるかもしれません。
1 GPU 時間で 100 の悪意のある例を調整するだけで、これらの安全に調整された LLM を簡単に破壊して有害なコンテンツを生成できます。
正式には、新しい攻撃をシャドウ アライメントと呼びます。少量のデータを利用することで、モデルの有用性を犠牲にすることなく、安全に調整されたモデルを導き出し、有害なタスクに適応させることができます。
驚くべきことに、破壊されたモデルは、定期的な問い合わせに適切に応答する能力を保持しています。
5 つの異なる組織 (LLaMa-2、Falcon、InternLM、BaiChuan2、Vicuna) がリリースした 8 つのモデルにわたる実験により、シャドウ アラインメント攻撃の有効性が実証されました。
さらに、シングルターンの英語のみの攻撃は、マルチターンの対話や他の言語にうまく移行します。
この研究は、悪意のある攻撃者に対するオープンソース LLM の安全性を徹底的に見直し、強化するための共同の取り組みを明確に呼びかけるものです。

要約(オリジナル)

Warning: This paper contains examples of harmful language, and reader discretion is recommended. The increasing open release of powerful large language models (LLMs) has facilitated the development of downstream applications by reducing the essential cost of data annotation and computation. To ensure AI safety, extensive safety-alignment measures have been conducted to armor these models against malicious use (primarily hard prompt attack). However, beneath the seemingly resilient facade of the armor, there might lurk a shadow. By simply tuning on 100 malicious examples with 1 GPU hour, these safely aligned LLMs can be easily subverted to generate harmful content. Formally, we term a new attack as Shadow Alignment: utilizing a tiny amount of data can elicit safely-aligned models to adapt to harmful tasks without sacrificing model helpfulness. Remarkably, the subverted models retain their capability to respond appropriately to regular inquiries. Experiments across 8 models released by 5 different organizations (LLaMa-2, Falcon, InternLM, BaiChuan2, Vicuna) demonstrate the effectiveness of shadow alignment attack. Besides, the single-turn English-only attack successfully transfers to multi-turn dialogue and other languages. This study serves as a clarion call for a collective effort to overhaul and fortify the safety of open-source LLMs against malicious attackers.

arxiv情報

著者 Xianjun Yang,Xiao Wang,Qi Zhang,Linda Petzold,William Yang Wang,Xun Zhao,Dahua Lin
発行日 2023-10-04 16:39:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク