要約
特に、最新の拡散モデルと画像編集方法が非常に現実的な操作を生成する可能性があることを考えると、コンテンツの信頼性を評価するためには、画像内の局所編集の編集された画像検出が重要です。
ただし、このドメインは3つの課題に直面しています。(1)バイナリ分類器は、ローカリゼーションを提供せずにグローバルな実世界またはフェイクラベルのみを生成します。
(2)従来のコンピュータービジョン方法は、多くの場合、費用のかかるピクセルレベルの注釈に依存しています。
(3)最新の画像編集検出技術には、大規模で高品質のデータセットが存在しません。
これらのギャップに対処するために、自動化されたデータジェネレーションパイプラインを開発して、編集された画像検出用の最初の専用ベンチマークデータセットであるFragfakeを作成します。
Fragfakeに基づいて、編集された画像分類と編集された地域のローカリゼーションのタスクで、Vision言語モデル(VLM)を初めて利用します。
実験結果は、微調整されたVLMがすべてのデータセットでより高い平均オブジェクトの精度を達成し、かなり優れた前のモデルを上回ることを示しています。
さらに、さまざまな構成と編集シナリオの検出器を評価するために、アブレーションと移動性分析を実施します。
私たちの知る限り、この作業は、ビジョン言語理解タスクとしてローカライズされた画像編集の検出を再定式化し、フィールドの新しいパラダイムを確立する最初の作業です。
この作業は、マルチモーダルコンテンツの信頼性の領域でその後の研究の努力を促進し、促進するための強固な基盤を確立すると予想しています。
要約(オリジナル)
Fine-grained edited image detection of localized edits in images is crucial for assessing content authenticity, especially given that modern diffusion models and image editing methods can produce highly realistic manipulations. However, this domain faces three challenges: (1) Binary classifiers yield only a global real-or-fake label without providing localization; (2) Traditional computer vision methods often rely on costly pixel-level annotations; and (3) No large-scale, high-quality dataset exists for modern image-editing detection techniques. To address these gaps, we develop an automated data-generation pipeline to create FragFake, the first dedicated benchmark dataset for edited image detection, which includes high-quality images from diverse editing models and a wide variety of edited objects. Based on FragFake, we utilize Vision Language Models (VLMs) for the first time in the task of edited image classification and edited region localization. Experimental results show that fine-tuned VLMs achieve higher average Object Precision across all datasets, significantly outperforming pretrained models. We further conduct ablation and transferability analyses to evaluate the detectors across various configurations and editing scenarios. To the best of our knowledge, this work is the first to reformulate localized image edit detection as a vision-language understanding task, establishing a new paradigm for the field. We anticipate that this work will establish a solid foundation to facilitate and inspire subsequent research endeavors in the domain of multimodal content authenticity.
arxiv情報
著者 | Zhen Sun,Ziyi Zhang,Zeren Luo,Zeyang Sha,Tianshuo Cong,Zheng Li,Shiwen Cui,Weiqiang Wang,Jiaheng Wei,Xinlei He,Qi Li,Qian Wang |
発行日 | 2025-05-21 15:22:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google