FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models

要約

ジェネレーティブAIの急速な発展は、コンテンツ作成を容易にするだけでなく、画像操作を容易にし、検出を困難にするという諸刃の剣でもある。現在の画像偽造検出・位置特定(IFDL)手法は一般的に有効であるが、2つの課題に直面する傾向がある:\例えば、Photoshop、DeepFake、AIGC-Editingなど)。これらの問題に対処するため、我々は説明可能なIFDLタスクを提案し、画像の真正性を評価し、改ざん領域マスクを生成し、ピクセルレベルと画像レベルの改ざんの手がかりに基づく判断基準を提供できるマルチモーダルフレームワークであるFakeShieldを設計する。さらに、GPT-4oを活用して既存のIFDLデータセットを拡張し、FakeShieldの改ざん解析能力を訓練するためのマルチモーダル改ざん記述データセット(MMTD-Set)を作成する。一方、我々は、様々なタイプの改ざん検出解釈に対処し、詳細なテキスト記述によって誘導される偽造ローカライゼーションを実現するために、ドメインタグ誘導型説明可能偽造検出モジュール(DTE-FDM)とマルチモーダル偽造ローカライゼーションモジュール(MFLM)を組み込んだ。広範な実験により、FakeShieldが様々な改ざん技術を効果的に検出し、ローカライズすることが実証されており、従来のIFDL手法と比較して説明可能で優れたソリューションを提供しています。

要約(オリジナル)

The rapid development of generative AI is a double-edged sword, which not only facilitates content creation but also makes image manipulation easier and more difficult to detect. Although current image forgery detection and localization (IFDL) methods are generally effective, they tend to face two challenges: \textbf{1)} black-box nature with unknown detection principle, \textbf{2)} limited generalization across diverse tampering methods (e.g., Photoshop, DeepFake, AIGC-Editing). To address these issues, we propose the explainable IFDL task and design FakeShield, a multi-modal framework capable of evaluating image authenticity, generating tampered region masks, and providing a judgment basis based on pixel-level and image-level tampering clues. Additionally, we leverage GPT-4o to enhance existing IFDL datasets, creating the Multi-Modal Tamper Description dataSet (MMTD-Set) for training FakeShield’s tampering analysis capabilities. Meanwhile, we incorporate a Domain Tag-guided Explainable Forgery Detection Module (DTE-FDM) and a Multi-modal Forgery Localization Module (MFLM) to address various types of tamper detection interpretation and achieve forgery localization guided by detailed textual descriptions. Extensive experiments demonstrate that FakeShield effectively detects and localizes various tampering techniques, offering an explainable and superior solution compared to previous IFDL methods.

arxiv情報

著者 Zhipei Xu,Xuanyu Zhang,Runyi Li,Zecheng Tang,Qing Huang,Jian Zhang
発行日 2024-10-03 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク