要約
既存の大規模な言語モデル(LLMS)は迅速に進歩しており、画像生成タスクで優れた結果を生み出していますが、コンテンツの安全チェックは迅速な脱獄に対して脆弱なままです。
ChatGpt、Metaai、Grokなどのプラットフォームでの予備的なテストを通じて、短く、自然なプロンプトでさえ、偽造文書の現実的な描写から公共人物の操作画像に至るまで、妥協する画像の生成につながる可能性があることが観察されました。
画像生成におけるLLMの脆弱性を評価するための動的でスケーラブルなベンチマークデータセットであるキャンバス(UTCベンチマーク; UTCB)のマスキングを導入します。
私たちの方法論は、構造化された迅速なエンジニアリング、多言語の難読化(Zulu、Gaelic、Base64など)、およびGROQホストのLLAMA-3を使用した評価を組み合わせています。
パイプラインは、ゼロショットとフォールバックの両方の両方の両方の両方をサポートします。
すべての世代は豊富なメタデータで保管され、青銅(非検証)、銀(LLM支援検証)、および金(手動で検証された)層にキュレーションされています。
UTCBは、新しいデータソース、プロンプトテンプレート、およびモデルの動作を使用して、時間の経過とともに進化するように設計されています。
警告:このホワイトペーパーには、モデルの安全性をテストするために設計された敵対的な入力の視覚的な例が含まれています。
責任ある開示を確保するために、すべての出力が編集されています。
要約(オリジナル)
Existing large language models (LLMs) are advancing rapidly and produce outstanding results in image generation tasks, yet their content safety checks remain vulnerable to prompt-based jailbreaks. Through preliminary testing on platforms such as ChatGPT, MetaAI, and Grok, we observed that even short, natural prompts could lead to the generation of compromising images ranging from realistic depictions of forged documents to manipulated images of public figures. We introduce Unmasking the Canvas (UTC Benchmark; UTCB), a dynamic and scalable benchmark dataset to evaluate LLM vulnerability in image generation. Our methodology combines structured prompt engineering, multilingual obfuscation (e.g., Zulu, Gaelic, Base64), and evaluation using Groq-hosted LLaMA-3. The pipeline supports both zero-shot and fallback prompting strategies, risk scoring, and automated tagging. All generations are stored with rich metadata and curated into Bronze (non-verified), Silver (LLM-aided verification), and Gold (manually verified) tiers. UTCB is designed to evolve over time with new data sources, prompt templates, and model behaviors. Warning: This paper includes visual examples of adversarial inputs designed to test model safety. All outputs have been redacted to ensure responsible disclosure.
arxiv情報
著者 | Variath Madhupal Gautham Nair,Vishal Varma Dantuluri |
発行日 | 2025-05-07 05:54:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google