要約
大規模言語モデル(Large Language Models: LLM)をレッドチーム化するために、様々な脱獄攻撃が提案されており、LLMの脆弱な安全策が明らかにされている。さらに、いくつかの方法は、テキストモダリティに限定されず、視覚入力を摂動させることにより、マルチモーダル大規模言語モデル(MLLM)に脱獄攻撃を拡張する。しかし、普遍的な評価ベンチマークがないため、性能の再現と公正な比較が複雑になっている。また、クローズドソースの最先端(SOTA)モデル、特にGPT-4VのようなMLLMの包括的な評価が不足している。これらの問題に対処するために、本研究ではまず、11の異なる安全ポリシーをカバーする1445の有害な質問を含む包括的な脱獄評価データセットを構築する。このデータセットに基づき、SOTAプロプライエタリモデルとオープンソースモデルの両方を含む11種類のLLMとMLLMについて、広範なレッドチーム実験を実施する。その結果、(1) GPT4とGPT-4Vは、オープンソースのLLMやMLLMと比較して、脱獄攻撃に対する堅牢性が高いことがわかった。(2)Llama2とQwen-VL-Chatは、他のオープンソースモデルと比較してより堅牢である。(3)視覚的な脱獄方法の移植性は、テキスト的な脱獄方法に比べて比較的限られている。データセットとコードはこちらhttps://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md。
要約(オリジナル)
Various jailbreak attacks have been proposed to red-team Large Language Models (LLMs) and revealed the vulnerable safeguards of LLMs. Besides, some methods are not limited to the textual modality and extend the jailbreak attack to Multimodal Large Language Models (MLLMs) by perturbing the visual input. However, the absence of a universal evaluation benchmark complicates the performance reproduction and fair comparison. Besides, there is a lack of comprehensive evaluation of closed-source state-of-the-art (SOTA) models, especially MLLMs, such as GPT-4V. To address these issues, this work first builds a comprehensive jailbreak evaluation dataset with 1445 harmful questions covering 11 different safety policies. Based on this dataset, extensive red-teaming experiments are conducted on 11 different LLMs and MLLMs, including both SOTA proprietary models and open-source models. We then conduct a deep analysis of the evaluated results and find that (1) GPT4 and GPT-4V demonstrate better robustness against jailbreak attacks compared to open-source LLMs and MLLMs. (2) Llama2 and Qwen-VL-Chat are more robust compared to other open-source models. (3) The transferability of visual jailbreak methods is relatively limited compared to textual jailbreak methods. The dataset and code can be found here https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md .
arxiv情報
著者 | Shuo Chen,Zhen Han,Bailan He,Zifeng Ding,Wenqian Yu,Philip Torr,Volker Tresp,Jindong Gu |
発行日 | 2024-04-04 12:38:14+00:00 |
arxivサイト | arxiv_id(pdf) |