SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model

要約

非常に現実的な画像を作成する生成モデルの急速な進歩は、誤った情報の流布に大きなリスクをもたらします。
たとえば、合成画像がソーシャル メディアで共有されると、広範な視聴者を誤解させ、デジタル コンテンツに対する信頼を損ない、深刻な影響をもたらす可能性があります。
ある程度の進歩はあるものの、学界はソーシャルメディア向けの大規模で多様なディープフェイク検出データセットをまだ作成しておらず、この問題に対処する効果的な解決策も考案していません。
このペーパーでは、ソーシャル メディア画像検出データセット (SID セット) を紹介します。これは 3 つの重要な利点を提供します: (1) AI によって生成/改ざんされた 300,000 個の包括的な注釈を備えた大規模なボリューム、(2) 幅広い多様性、
これには、さまざまなクラスにわたる完全に合成された改ざんされた画像が含まれ、(3) 単なる目視検査では本物の画像とほとんど区別できない画像による高度なリアリズムが含まれます。
さらに、大規模なマルチモーダル モデルの卓越した機能を活用して、SIDA (ソーシャル メディア画像検出、位置特定、および説明アシスタント) と呼ばれる新しい画像ディープフェイク検出、位置特定、および説明フレームワークを提案します。
SIDA は画像の信頼性を識別するだけでなく、マスク予測を通じて改ざん領域を描写し、モデルの判断基準をテキストで説明します。
SID-Set や他のベンチマークにおける最先端のディープフェイク検出モデルと比較して、広範な実験により、SIDA が多様な設定間で優れたパフォーマンスを達成することが実証されています。
コード、モデル、データセットはリリースされます。

要約(オリジナル)

The rapid advancement of generative models in creating highly realistic images poses substantial risks for misinformation dissemination. For instance, a synthetic image, when shared on social media, can mislead extensive audiences and erode trust in digital content, resulting in severe repercussions. Despite some progress, academia has not yet created a large and diversified deepfake detection dataset for social media, nor has it devised an effective solution to address this issue. In this paper, we introduce the Social media Image Detection dataSet (SID-Set), which offers three key advantages: (1) extensive volume, featuring 300K AI-generated/tampered and authentic images with comprehensive annotations, (2) broad diversity, encompassing fully synthetic and tampered images across various classes, and (3) elevated realism, with images that are predominantly indistinguishable from genuine ones through mere visual inspection. Furthermore, leveraging the exceptional capabilities of large multimodal models, we propose a new image deepfake detection, localization, and explanation framework, named SIDA (Social media Image Detection, localization, and explanation Assistant). SIDA not only discerns the authenticity of images, but also delineates tampered regions through mask prediction and provides textual explanations of the model’s judgment criteria. Compared with state-of-the-art deepfake detection models on SID-Set and other benchmarks, extensive experiments demonstrate that SIDA achieves superior performance among diversified settings. The code, model, and dataset will be released.

arxiv情報

著者 Zhenglin Huang,Jinwei Hu,Xiangtai Li,Yiwei He,Xingyu Zhao,Bei Peng,Baoyuan Wu,Xiaowei Huang,Guangliang Cheng
発行日 2024-12-05 16:12:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク