Red-Teaming Large Language Models using Chain of Utterances for Safety-Alignment

要約

大規模言語モデル (LLM) は、次の単語の予測目標を最適化するだけで大​​規模なマルチタスク機能を備え、世界を席巻しました。
LLM の特性とエンコードされた知識の出現により、LLM が有害な出力を生成するリスクが増大し、一般向けの拡張可能な展開には適さなくなります。
本研究では、レッドチーム化を行う新たな安全性評価ベンチマークRED-EVALを提案する。
私たちは、広く導入されているモデルであっても、GPT-4 や ChatGPT などのクローズド ソース LLM ベース システムをジェイルブレイクする Chain of Utterances ベース (CoU) のプロンプトの影響を受けやすく、有害なクエリの 65% と 73% 以上に非倫理的に応答することを示します。
また、レッドチーム化の試みの 86% 以上で有害な応答が生成されるという点で、8 つのオープンソース LLM にわたる RED-EVAL の一貫性も示しています。
次に、LLM の安全調整のためのアプローチである RED-INSTRUCT を提案します。
これは 2 つのフェーズで構成されます。 1) HARMFULQA データ収集: CoU プロンプトを利用して、幅広いトピックをカバーする 1.9K の有害な質問、ChatGPT からの 9.5K の安全な会話と 7.3K の有害な会話で構成されるデータセットを収集します。
2) SAFE-ALIGN: 有益な応答に対する負の対数尤度を最小限に抑え、サンプル損失に対する勾配アクセントによって有害な応答に対してペナルティを与えることにより、会話型データセットを LLM の安全性アライメントにどのように使用できるかを示します。
微調整された Vicuna-7B である当社のモデル STARLING は、ベースライン モデル (TruthfulQA、MMLU、および BBH) の有用性を維持しながら、RED-EVAL および HHH ベンチマークで評価すると、より安全に調整されることが観察されます。

要約(オリジナル)

Larger language models (LLMs) have taken the world by storm with their massive multi-tasking capabilities simply by optimizing over a next-word prediction objective. With the emergence of their properties and encoded knowledge, the risk of LLMs producing harmful outputs increases, making them unfit for scalable deployment for the public. In this work, we propose a new safety evaluation benchmark RED-EVAL that carries out red-teaming. We show that even widely deployed models are susceptible to the Chain of Utterances-based (CoU) prompting, jailbreaking closed source LLM-based systems such as GPT-4 and ChatGPT to unethically respond to more than 65% and 73% of harmful queries. We also demonstrate the consistency of the RED-EVAL across 8 open-source LLMs in generating harmful responses in more than 86% of the red-teaming attempts. Next, we propose RED-INSTRUCT–An approach for the safety alignment of LLMs. It constitutes two phases: 1) HARMFULQA data collection: Leveraging CoU prompting, we collect a dataset that consists of 1.9K harmful questions covering a wide range of topics, 9.5K safe and 7.3K harmful conversations from ChatGPT; 2) SAFE-ALIGN: We demonstrate how the conversational dataset can be used for the safety alignment of LLMs by minimizing the negative log-likelihood over helpful responses and penalizing over harmful responses by gradient accent over sample loss. Our model STARLING, a fine-tuned Vicuna-7B, is observed to be more safely aligned when evaluated on RED-EVAL and HHH benchmarks while preserving the utility of the baseline models (TruthfulQA, MMLU, and BBH).

arxiv情報

著者 Rishabh Bhardwaj,Soujanya Poria
発行日 2023-08-18 16:27:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク