要約
近年の進歩により、大規模言語モデル(LLM)を搭載した自律型エージェントを用いた自動タスク解決能力が大幅に向上している。しかし、ほとんどのLLMベースのエージェントは、対話、プログラミング、または特殊な領域に焦点を当てており、生成的なAIの安全タスクに対処する上でギャップを残している。これらのギャップは、主にLLMの幻覚がもたらす課題と明確なガイドラインの欠如によるものである。本論文では、生成AIモデルをターゲットとする効率的なファジングワークフローを統合した先進的なLLMベースのマルチエージェントフレームワークであるAtlasを提案する。Atlasは、視覚言語モデル(VLM)を利用して、プロンプトがT2Iモデルの安全フィルターをトリガーするかどうかを評価する。そして、LLMとVLMの両方と反復的に協調し、フィルタを回避する代替プロンプトを生成する。Atlasはまた、マルチエージェント通信、文脈内学習(ICL)メモリメカニズム、および思考連鎖(COT)アプローチを活用することで、攻撃シナリオにおけるLLMの推論能力を強化する。我々の評価では、Atlasがブラックボックス環境において、マルチモーダルな安全フィルターを備えたいくつかの最先端のT2Iモデルのジェイルブレイクに成功したことを実証している。さらに、Atlasはクエリの効率と生成された画像の質の両方において既存の手法を凌駕している。
要約(オリジナル)
Recent advancements have significantly improved automated task-solving capabilities using autonomous agents powered by large language models (LLMs). However, most LLM-based agents focus on dialogue, programming, or specialized domains, leaving gaps in addressing generative AI safety tasks. These gaps are primarily due to the challenges posed by LLM hallucinations and the lack of clear guidelines. In this paper, we propose Atlas, an advanced LLM-based multi-agent framework that integrates an efficient fuzzing workflow to target generative AI models, specifically focusing on jailbreak attacks against text-to-image (T2I) models with safety filters. Atlas utilizes a vision-language model (VLM) to assess whether a prompt triggers the T2I model’s safety filter. It then iteratively collaborates with both LLM and VLM to generate an alternative prompt that bypasses the filter. Atlas also enhances the reasoning abilities of LLMs in attack scenarios by leveraging multi-agent communication, in-context learning (ICL) memory mechanisms, and the chain-of-thought (COT) approach. Our evaluation demonstrates that Atlas successfully jailbreaks several state-of-the-art T2I models in a black-box setting, which are equipped with multi-modal safety filters. In addition, Atlas outperforms existing methods in both query efficiency and the quality of the generated images.
arxiv情報
著者 | Yingkai Dong,Zheng Li,Xiangtao Meng,Ning Yu,Shanqing Guo |
発行日 | 2024-08-01 12:54:46+00:00 |
arxivサイト | arxiv_id(pdf) |