FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics

要約

生成的人工知能(AI)の迅速かつ抑制されていない進歩は、両刃の剣を提示します。前例のない創造性を可能にしながら、非常に説得力のある欺cept的な内容の生成を促進し、社会的信頼を損ないます。
画像生成のテクニックがますます洗練されるにつれて、合成画像の検出はもはや単なるバイナリタスクではありません。信頼性と透明性を高める解釈可能なコンテキスト認識の方法論が必要です。
ただし、既存の検出モデルは主に分類に焦点を当てており、画像の信頼性に関する説明的な洞察を提供します。
この作業では、AIが生成された画像法医学に合わせて調整された専門家マルチモーダルモデル(LMM)であるFakescopeを提案します。これは、高精度でAI合成画像を識別するだけでなく、豊富で解釈可能な、クエリ駆動型のフォレンジック洞察を提供します。
最初に、視覚的なトレースの証拠に基づいた言語の信頼性の推論を含むFakechainデータセットを構築し、新しいヒューマシンコラボレーションフレームワークを通じて開発しました。
さらに、LMMの法医学的認識を高めるために調整された200万の視覚命令を含む最大のマルチモーダル命令チューニングデータセットであるFakeinstructをさらに紹介します。
Fakescopeは、閉鎖された法医学シナリオとオープンエンドの両方のフォレンジックシナリオで最先端のパフォーマンスを達成します。
合成画像を高い精度で区別することができ、一貫した洞察力のある説明、きめ細かい偽造属性に関する自由形式の議論、および実用的な強化戦略を提供します。
特に、定性的なハードラベルのみで訓練されているにもかかわらず、Fakescopeは、提案されているトークンベースの確率推定戦略によって有効になっている検出に関する顕著なゼロショットの定量的機能を示しています。
さらに、Fakescopeは強力な一般化と野生の能力を示し、実際のシナリオでの適用性を確保します。

要約(オリジナル)

The rapid and unrestrained advancement of generative artificial intelligence (AI) presents a double-edged sword: while enabling unprecedented creativity, it also facilitates the generation of highly convincing deceptive content, undermining societal trust. As image generation techniques become increasingly sophisticated, detecting synthetic images is no longer just a binary task: it necessitates interpretable, context-aware methodologies that enhance trustworthiness and transparency. However, existing detection models primarily focus on classification, offering limited explanatory insights into image authenticity. In this work, we propose FakeScope, an expert multimodal model (LMM) tailored for AI-generated image forensics, which not only identifies AI-synthetic images with high accuracy but also provides rich, interpretable, and query-driven forensic insights. We first construct FakeChain dataset that contains linguistic authenticity reasoning based on visual trace evidence, developed through a novel human-machine collaborative framework. Building upon it, we further present FakeInstruct, the largest multimodal instruction tuning dataset containing 2 million visual instructions tailored to enhance forensic awareness in LMMs. FakeScope achieves state-of-the-art performance in both closed-ended and open-ended forensic scenarios. It can distinguish synthetic images with high accuracy while offering coherent and insightful explanations, free-form discussions on fine-grained forgery attributes, and actionable enhancement strategies. Notably, despite being trained exclusively on qualitative hard labels, FakeScope demonstrates remarkable zero-shot quantitative capability on detection, enabled by our proposed token-based probability estimation strategy. Furthermore, FakeScope exhibits strong generalization and in-the-wild ability, ensuring its applicability in real-world scenarios.

arxiv情報

著者 Yixuan Li,Yu Tian,Yipo Huang,Wei Lu,Shiqi Wang,Weisi Lin,Anderson Rocha
発行日 2025-03-31 16:12:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク