GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models

要約

大規模言語モデル (LLM) の安全フィルターをバイパスする「脱獄」と有害な応答の発見により、コミュニティは安全対策を講じるようになりました。
主な安全対策の 1 つは、リリース前にジェイルブレイクを使用して LLM を積極的にテストすることです。
したがって、そのようなテストには、大規模かつ効率的にジェイルブレイクを生成できる方法が必要になります。
この論文では、人間の世代のスタイルで脱獄を生成するための斬新かつ直感的な戦略に従います。
私たちは、新しい脱獄に協力するためにユーザー LLM に 4 つの異なる役割を割り当てるロールプレイング システムを提案します。
さらに、既存のジェイルブレイクを収集し、クラスタリング頻度と文ごとの意味パターンを使用して、それらをさまざまな独立した特性に分割します。
これらの特性をナレッジ グラフに整理して、アクセスしやすく、検索しやすくしています。
さまざまな役割を持つ当社のシステムは、このナレッジ グラフを活用して新しいジェイルブレイクを生成します。これは、LLM が非倫理的またはガイドライン違反の応答を生成するように誘導するのに効果的であることが証明されています。
さらに、政府発行のガイドラインに自動的に準拠してジェイルブレイクを生成し、LLM がガイドラインに従っているかどうかをテストするシステム設定も先駆的に開発しました。
私たちはこのシステムを GUARD (Adaptive Roll-play Diagnostics によるガイドラインの維持) と呼んでいます。
私たちは、3 つの最先端のオープンソース LLM (Vicuna-13B、LongChat-7B、および Llama-2-7B) と、広く使用されている商用 LLM (ChatGPT) での GUARD の有効性を実証的に検証しました。
さらに、私たちの取り組みはビジョン言語モデル (MiniGPT-v2 および Gemini Vision Pro) の領域にまで及び、GUARD の多用途性を実証し、多様なモダリティにわたるより安全で信頼性の高い LLM ベースのアプリケーションの開発に貴重な洞察を提供しています。

要約(オリジナル)

The discovery of ‘jailbreaks’ to bypass safety filters of Large Language Models (LLMs) and harmful responses have encouraged the community to implement safety measures. One major safety measure is to proactively test the LLMs with jailbreaks prior to the release. Therefore, such testing will require a method that can generate jailbreaks massively and efficiently. In this paper, we follow a novel yet intuitive strategy to generate jailbreaks in the style of the human generation. We propose a role-playing system that assigns four different roles to the user LLMs to collaborate on new jailbreaks. Furthermore, we collect existing jailbreaks and split them into different independent characteristics using clustering frequency and semantic patterns sentence by sentence. We organize these characteristics into a knowledge graph, making them more accessible and easier to retrieve. Our system of different roles will leverage this knowledge graph to generate new jailbreaks, which have proved effective in inducing LLMs to generate unethical or guideline-violating responses. In addition, we also pioneer a setting in our system that will automatically follow the government-issued guidelines to generate jailbreaks to test whether LLMs follow the guidelines accordingly. We refer to our system as GUARD (Guideline Upholding through Adaptive Role-play Diagnostics). We have empirically validated the effectiveness of GUARD on three cutting-edge open-sourced LLMs (Vicuna-13B, LongChat-7B, and Llama-2-7B), as well as a widely-utilized commercial LLM (ChatGPT). Moreover, our work extends to the realm of vision language models (MiniGPT-v2 and Gemini Vision Pro), showcasing GUARD’s versatility and contributing valuable insights for the development of safer, more reliable LLM-based applications across diverse modalities.

arxiv情報

著者 Haibo Jin,Ruoxi Chen,Andy Zhou,Jinyin Chen,Yang Zhang,Haohan Wang
発行日 2024-02-05 18:54:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク