LEGION: Learning to Ground and Explain for Synthetic Image Detection

要約

生成技術の急速な進歩は、両刃の剣として浮上しています。
利便性を高める強力なツールを提供しますが、彼らはまた重要な社会的懸念をもたらします。
擁護者として、現在の合成画像検出方法は、しばしばアーティファクトレベルのテキストの解釈可能性を欠いており、画像操作の検出に過度に焦点を当てており、現在のデータセットは通常、時代遅れの発電機と細かい注釈が不足しています。
このペーパーでは、ヒト専門用アノテーションを備えた12,236の完全な合成画像で構成される高品質で多様なデータセットであるSynthscarsを紹介します。
4つの異なる画像コンテンツタイプ、3つのカテゴリのアーティファクト、およびピクセルレベルのセグメンテーション、詳細なテキストの説明、およびアーティファクトカテゴリラベルをカバーするファイングレインの注釈が備わっています。
さらに、アーティファクト検出、セグメンテーション、および説明を統合するマルチモーダル大手言語モデル(MLLM)ベースの画像分析フレームワークであるレギオン(合成画像検出のために根拠と説明を学ぶ)を提案します。
この機能に基づいて、レギオンをコントローラーとしてさらに探索し、画像の改良パイプラインに統合して、より高品質でより現実的な画像の生成を導きます。
広範な実験では、Legionが複数のベンチマークにわたって既存の方法よりも優れていることが示されており、特にMIOUで2番目に良い従来のエキスパートをMIOUで3.31%、F1スコアで7.75%超えています。
さらに、そのガイダンスの下で生成された洗練された画像は、人間の好みとより強い整合性を示しています。
コード、モデル、およびデータセットがリリースされます。

要約(オリジナル)

The rapid advancements in generative technology have emerged as a double-edged sword. While offering powerful tools that enhance convenience, they also pose significant social concerns. As defenders, current synthetic image detection methods often lack artifact-level textual interpretability and are overly focused on image manipulation detection, and current datasets usually suffer from outdated generators and a lack of fine-grained annotations. In this paper, we introduce SynthScars, a high-quality and diverse dataset consisting of 12,236 fully synthetic images with human-expert annotations. It features 4 distinct image content types, 3 categories of artifacts, and fine-grained annotations covering pixel-level segmentation, detailed textual explanations, and artifact category labels. Furthermore, we propose LEGION (LEarning to Ground and explain for Synthetic Image detectiON), a multimodal large language model (MLLM)-based image forgery analysis framework that integrates artifact detection, segmentation, and explanation. Building upon this capability, we further explore LEGION as a controller, integrating it into image refinement pipelines to guide the generation of higher-quality and more realistic images. Extensive experiments show that LEGION outperforms existing methods across multiple benchmarks, particularly surpassing the second-best traditional expert on SynthScars by 3.31% in mIoU and 7.75% in F1 score. Moreover, the refined images generated under its guidance exhibit stronger alignment with human preferences. The code, model, and dataset will be released.

arxiv情報

著者 Hengrui Kang,Siwei Wen,Zichen Wen,Junyan Ye,Weijia Li,Peilin Feng,Baichuan Zhou,Bin Wang,Dahua Lin,Linfeng Zhang,Conghui He
発行日 2025-03-19 14:37:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク