OpenSDI: Spotting Diffusion-Generated Images in the Open World

要約

このペーパーでは、Opensdiを特定します。これは、オープンワールド設定で拡散生成画像を発見するための課題です。
この課題に応えて、オープンワールドの拡散ベースの操作をシミュレートする大規模なビジョン言語モデルの多様な使用により、既存のデータセットから際立っている新しいベンチマークであるOpenSDIデータセット(OpenSDID)を定義します。
OpenSDIDのもう1つの優れた機能は、拡散モデルによってグローバルに局所的に操作された画像の検出タスクとローカリゼーションタスクの両方を含めることです。
OpenSDIチャレンジに対処するために、基礎モデルの混合を構築するために、相乗的な前処理モデル(SPM)スキームを提案します。
このアプローチは、複数の前提条件の基礎モデルとのコラボレーションメカニズムを活用して、OpenSDIコンテキストでの一般化を強化し、戦略を促して参加することで複数の前提型モデルを相乗的にすることにより、従来のトレーニングを超えて移動します。
このスキームに基づいて、MaskClipを紹介します。MaskClipは、MaskClipを紹介します。MaskClipは、MaskClipをマスクアートエンコーダー(MAE)と対照的な言語イメージ(CLIP)に合わせます。
OpenSDidの広範な評価は、MaskClipがOpenSDIチャレンジの現在の最先端の方法を大幅に上回ることを示しており、Iouで14.11%(F1で14.11%)、2.05%の精度で2.05%(F1で2.38%)を達成し、それぞれセカンドベストモデルと検出タスクに比べて(F1で2.38%)。
データセットとコードはhttps://github.com/iamwangyabin/opensdiで入手できます。

要約(オリジナル)

This paper identifies OpenSDI, a challenge for spotting diffusion-generated images in open-world settings. In response to this challenge, we define a new benchmark, the OpenSDI dataset (OpenSDID), which stands out from existing datasets due to its diverse use of large vision-language models that simulate open-world diffusion-based manipulations. Another outstanding feature of OpenSDID is its inclusion of both detection and localization tasks for images manipulated globally and locally by diffusion models. To address the OpenSDI challenge, we propose a Synergizing Pretrained Models (SPM) scheme to build up a mixture of foundation models. This approach exploits a collaboration mechanism with multiple pretrained foundation models to enhance generalization in the OpenSDI context, moving beyond traditional training by synergizing multiple pretrained models through prompting and attending strategies. Building on this scheme, we introduce MaskCLIP, an SPM-based model that aligns Contrastive Language-Image Pre-Training (CLIP) with Masked Autoencoder (MAE). Extensive evaluations on OpenSDID show that MaskCLIP significantly outperforms current state-of-the-art methods for the OpenSDI challenge, achieving remarkable relative improvements of 14.23% in IoU (14.11% in F1) and 2.05% in accuracy (2.38% in F1) compared to the second-best model in localization and detection tasks, respectively. Our dataset and code are available at https://github.com/iamwangyabin/OpenSDI.

arxiv情報

著者 Yabin Wang,Zhiwu Huang,Xiaopeng Hong
発行日 2025-03-25 13:43:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク