要約
生成技術の急速な進歩は、両刃の剣として浮上しています。
利便性を高める強力なツールを提供しますが、彼らはまた重要な社会的懸念をもたらします。
擁護者として、現在の合成画像検出方法は、しばしばアーティファクトレベルのテキストの解釈可能性を欠いており、画像操作の検出に過度に焦点を当てており、現在のデータセットは通常、時代遅れの発電機と細かい注釈が不足しています。
このペーパーでは、ヒト専門用アノテーションを備えた12,236の完全な合成画像で構成される高品質で多様なデータセットであるSynthscarsを紹介します。
4つの異なる画像コンテンツタイプ、3つのカテゴリのアーティファクト、およびピクセルレベルのセグメンテーション、詳細なテキストの説明、およびアーティファクトカテゴリラベルをカバーするファイングレインの注釈が備わっています。
さらに、アーティファクト検出、セグメンテーション、および説明を統合するマルチモーダル大手言語モデル(MLLM)ベースの画像分析フレームワークであるレギオン(合成画像検出のために根拠と説明を学ぶ)を提案します。
この機能に基づいて、レギオンをコントローラーとしてさらに探索し、画像の改良パイプラインに統合して、より高品質でより現実的な画像の生成を導きます。
広範な実験では、Legionが複数のベンチマークにわたって既存の方法よりも優れていることが示されており、特にMIOUで2番目に良い従来のエキスパートをMIOUで3.31%、F1スコアで7.75%超えています。
さらに、そのガイダンスの下で生成された洗練された画像は、人間の好みとより強い整合性を示しています。
コード、モデル、およびデータセットがリリースされます。
要約(オリジナル)
The rapid advancements in generative technology have emerged as a double-edged sword. While offering powerful tools that enhance convenience, they also pose significant social concerns. As defenders, current synthetic image detection methods often lack artifact-level textual interpretability and are overly focused on image manipulation detection, and current datasets usually suffer from outdated generators and a lack of fine-grained annotations. In this paper, we introduce SynthScars, a high-quality and diverse dataset consisting of 12,236 fully synthetic images with human-expert annotations. It features 4 distinct image content types, 3 categories of artifacts, and fine-grained annotations covering pixel-level segmentation, detailed textual explanations, and artifact category labels. Furthermore, we propose LEGION (LEarning to Ground and explain for Synthetic Image detectiON), a multimodal large language model (MLLM)-based image forgery analysis framework that integrates artifact detection, segmentation, and explanation. Building upon this capability, we further explore LEGION as a controller, integrating it into image refinement pipelines to guide the generation of higher-quality and more realistic images. Extensive experiments show that LEGION outperforms existing methods across multiple benchmarks, particularly surpassing the second-best traditional expert on SynthScars by 3.31% in mIoU and 7.75% in F1 score. Moreover, the refined images generated under its guidance exhibit stronger alignment with human preferences. The code, model, and dataset will be released.
arxiv情報
著者 | Hengrui Kang,Siwei Wen,Zichen Wen,Junyan Ye,Weijia Li,Peilin Feng,Baichuan Zhou,Bin Wang,Dahua Lin,Linfeng Zhang,Conghui He |
発行日 | 2025-03-19 14:37:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google