要約
大規模言語モデル (LLM) が大規模に導入されるにつれ、その安全性の確保がますます重要になってきています。
しかし、既存の防御方法は、次の 2 つの重要な問題に悩まされることがよくあります。(i) 防御能力が不十分で、特に化学などのドメイン固有のシナリオでは、専門知識の欠如が悪意のあるクエリに対する有害な応答の生成につながる可能性があります。
(ii) 過剰防御。LLM の一般的な有用性と応答性が損なわれます。
これらの問題を軽減するために、当社はマルチエージェントベースの防御フレームワークである Guide for Defense (G4D) を導入します。これは、正確な外部情報を活用して、ユーザーの意図に関する公平な概要と、分析に基づいた安全対応ガイダンスを提供します。
一般的なジェイルブレイク攻撃と無害なデータセットに関する広範な実験により、G4D がモデルの一般的な機能を損なうことなく、一般およびドメイン固有のシナリオでのジェイルブレイク攻撃に対する LLM の堅牢性を強化できることが示されています。
要約(オリジナル)
With the extensive deployment of Large Language Models (LLMs), ensuring their safety has become increasingly critical. However, existing defense methods often struggle with two key issues: (i) inadequate defense capabilities, particularly in domain-specific scenarios like chemistry, where a lack of specialized knowledge can lead to the generation of harmful responses to malicious queries. (ii) over-defensiveness, which compromises the general utility and responsiveness of LLMs. To mitigate these issues, we introduce a multi-agents-based defense framework, Guide for Defense (G4D), which leverages accurate external information to provide an unbiased summary of user intentions and analytically grounded safety response guidance. Extensive experiments on popular jailbreak attacks and benign datasets show that our G4D can enhance LLM’s robustness against jailbreak attacks on general and domain-specific scenarios without compromising the model’s general functionality.
arxiv情報
著者 | He Cao,Weidi Luo,Yu Wang,Zijing Liu,Bing Feng,Yuan Yao,Yu Li |
発行日 | 2024-10-23 14:40:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google