SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model

要約

非常に現実的な画像の作成における生成モデルの急速な進歩は、誤った情報の普及のための大きなリスクをもたらします。
たとえば、合成イメージは、ソーシャルメディアで共有されている場合、広範な視聴者を誤解させ、デジタルコンテンツに対する信頼を侵食し、その結果、深刻な影響を与えます。
ある程度の進歩にもかかわらず、アカデミアはまだソーシャルメディア向けの大規模で多様化したディープフェイク検出データセットを作成しておらず、この問題に対処するための効果的なソリューションを考案していません。
このホワイトペーパーでは、ソーシャルメディア画像検出データセット(SID-SET)を紹介します。これは、3つの重要な利点を提供します。
単なる目視検査。
さらに、大規模なマルチモーダルモデルの例外的な機能を活用して、SIDA(ソーシャルメディア画像検出、ローカリゼーション、および説明アシスタント)という名前の新しい画像のディープフェイク検出、ローカリゼーション、および説明フレームワークを提案します。
Sidaは、画像の信頼性を識別するだけでなく、マスク予測を介して改ざんされた領域を描写し、モデルの判断基準のテキストの説明を提供します。
SIDセットおよびその他のベンチマークの最先端のディープフェイク検出モデルと比較して、広範な実験は、SIDAが多様化された設定の中で優れたパフォーマンスを達成することを示しています。
コード、モデル、およびデータセットがリリースされます。

要約(オリジナル)

The rapid advancement of generative models in creating highly realistic images poses substantial risks for misinformation dissemination. For instance, a synthetic image, when shared on social media, can mislead extensive audiences and erode trust in digital content, resulting in severe repercussions. Despite some progress, academia has not yet created a large and diversified deepfake detection dataset for social media, nor has it devised an effective solution to address this issue. In this paper, we introduce the Social media Image Detection dataSet (SID-Set), which offers three key advantages: (1) extensive volume, featuring 300K AI-generated/tampered and authentic images with comprehensive annotations, (2) broad diversity, encompassing fully synthetic and tampered images across various classes, and (3) elevated realism, with images that are predominantly indistinguishable from genuine ones through mere visual inspection. Furthermore, leveraging the exceptional capabilities of large multimodal models, we propose a new image deepfake detection, localization, and explanation framework, named SIDA (Social media Image Detection, localization, and explanation Assistant). SIDA not only discerns the authenticity of images, but also delineates tampered regions through mask prediction and provides textual explanations of the model’s judgment criteria. Compared with state-of-the-art deepfake detection models on SID-Set and other benchmarks, extensive experiments demonstrate that SIDA achieves superior performance among diversified settings. The code, model, and dataset will be released.

arxiv情報

著者 Zhenglin Huang,Jinwei Hu,Xiangtai Li,Yiwei He,Xingyu Zhao,Bei Peng,Baoyuan Wu,Xiaowei Huang,Guangliang Cheng
発行日 2025-03-10 11:03:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク