Goal-Oriented Prompt Attack and Safety Evaluation for LLMs

要約

大規模言語モデル (LLM) は、テキストの理解と生成において非常に優先されます。
ただし、LLM は、特にアプリケーションに使用されるときに有害なコンテンツを生成するリスクに悩まされます。
プロンプト攻撃など、LLM の動作を変更し、LLM が有害なコンテンツを含む予期しない応答を生成するように誘導するブラック ボックス攻撃手法がいくつかあります。
研究者は、LLM を使用した即時攻撃と防御に興味を持っていますが、即時攻撃を防御する能力を評価するための、高い攻撃成功率を示す公的に利用可能なデータセットはありません。
このペーパーでは、CPAD と呼ばれる中国の即時攻撃データセットとともに、高品質の即時攻撃サンプルを構築するためのパイプラインを紹介します。
私たちのプロンプトは、慎重に設計されたいくつかのプロンプト攻撃テンプレートと広く懸念される攻撃コンテンツを使用して、LLM が予期しない出力を生成するように誘導することを目的としています。
安全性の推定を伴うこれまでのデータセットとは異なり、内容、攻撃方法、目標の 3 つの側面を考慮してプロンプトを構築します。
特に、攻撃目標は、LLM への攻撃に成功した後に予想される動作を示すため、応答の評価と分析が容易になります。
私たちはデータセット上でいくつかの人気のある中国の LLM を実行しました。その結果、プロンプトは LLM にとって著しく有害であり、GPT-3.5 に対する攻撃成功率は約 70% であることがわかりました。
CPAD は https://github.com/liuchengyuan123/CPAD で公開されています。

要約(オリジナル)

Large Language Models (LLMs) presents significant priority in text understanding and generation. However, LLMs suffer from the risk of generating harmful contents especially while being employed to applications. There are several black-box attack methods, such as Prompt Attack, which can change the behaviour of LLMs and induce LLMs to generate unexpected answers with harmful contents. Researchers are interested in Prompt Attack and Defense with LLMs, while there is no publicly available dataset with high successful attacking rate to evaluate the abilities of defending prompt attack. In this paper, we introduce a pipeline to construct high-quality prompt attack samples, along with a Chinese prompt attack dataset called CPAD. Our prompts aim to induce LLMs to generate unexpected outputs with several carefully designed prompt attack templates and widely concerned attacking contents. Different from previous datasets involving safety estimation, we construct the prompts considering three dimensions: contents, attacking methods and goals. Especially, the attacking goals indicate the behaviour expected after successfully attacking the LLMs, thus the responses can be easily evaluated and analysed. We run several popular Chinese LLMs on our dataset, and the results show that our prompts are significantly harmful to LLMs, with around 70% attack success rate to GPT-3.5. CPAD is publicly available at https://github.com/liuchengyuan123/CPAD.

arxiv情報

著者 Chengyuan Liu,Fubang Zhao,Lizhi Qing,Yangyang Kang,Changlong Sun,Kun Kuang,Fei Wu
発行日 2023-12-08 02:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク