UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images

要約

画像安全性分類器は、オンライン上の安全でない画像(暴力、憎悪に満ちた暴言などを含む画像)を特定し、その拡散を緩和する上で重要な役割を果たします。同時に、テキストから画像への変換モデルの登場や、AIモデルの安全性に対する懸念の高まりにより、開発者はモデルを保護するために画像安全性分類器に頼るようになってきています。しかし、現在の画像安全性分類器の性能は、実世界の画像やAIが生成した画像に対して未知のままである。この研究ギャップを埋めるために、本研究では、画像安全性分類器の有効性と頑健性を評価するベンチマークフレームワークであるUnsafeBenchを提案する。まず、11の安全でない画像のカテゴリ(性的、暴力的、憎悪的など)に基づき、安全か安全でないかの注釈が付けられた1万枚の実世界の画像とAIが生成した画像の大規模なデータセットを作成する。次に、5つの一般的な画像安全分類器と、汎用の視覚言語モデルを利用した3つの分類器の有効性と頑健性を評価する。我々の評価では、既存の画像安全性分類器は、安全でない画像の多面的な問題を軽減する上で、包括的で十分効果的でないことが示された。また、実世界の画像に対してのみ訓練された分類器は、AIが生成した画像に適用すると性能が低下する傾向があることもわかった。これらの知見に動機づけられ、我々はPerspectiveVisionと呼ばれる包括的な画像モデレーションツールを設計・実装し、実世界とAIが生成した安全でない画像の11のカテゴリを効果的に識別する。最良のPerspectiveVisionモデルは、6つの評価データセットで0.810の総合F1-Scoreを達成し、これはGPT-4Vのようなクローズドソースで高価な最先端モデルに匹敵する。UnsafeBenchとPerspectiveVisionは、生成AIの時代における画像の安全性分類の状況をよりよく理解する上で、研究コミュニティを支援することができる。

要約(オリジナル)

Image safety classifiers play an important role in identifying and mitigating the spread of unsafe images online (e.g., images including violence, hateful rhetoric, etc.). At the same time, with the advent of text-to-image models and increasing concerns about the safety of AI models, developers are increasingly relying on image safety classifiers to safeguard their models. Yet, the performance of current image safety classifiers remains unknown for real-world and AI-generated images. To bridge this research gap, in this work, we propose UnsafeBench, a benchmarking framework that evaluates the effectiveness and robustness of image safety classifiers. First, we curate a large dataset of 10K real-world and AI-generated images that are annotated as safe or unsafe based on a set of 11 unsafe categories of images (sexual, violent, hateful, etc.). Then, we evaluate the effectiveness and robustness of five popular image safety classifiers, as well as three classifiers that are powered by general-purpose visual language models. Our assessment indicates that existing image safety classifiers are not comprehensive and effective enough in mitigating the multifaceted problem of unsafe images. Also, we find that classifiers trained only on real-world images tend to have degraded performance when applied to AI-generated images. Motivated by these findings, we design and implement a comprehensive image moderation tool called PerspectiveVision, which effectively identifies 11 categories of real-world and AI-generated unsafe images. The best PerspectiveVision model achieves an overall F1-Score of 0.810 on six evaluation datasets, which is comparable with closed-source and expensive state-of-the-art models like GPT-4V. UnsafeBench and PerspectiveVision can aid the research community in better understanding the landscape of image safety classification in the era of generative AI.

arxiv情報

著者 Yiting Qu,Xinyue Shen,Yixin Wu,Michael Backes,Savvas Zannettou,Yang Zhang
発行日 2024-05-06 13:57:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.CV, cs.SI パーマリンク