AutoSplice: A Text-prompt Manipulated Image Dataset for Media Forensics

要約

タイトル:AutoSplice:メディアフォレンジック用のテキストプロンプト操作画像データセット

要約:

– 言語-画像モデルの進歩により、テキスト説明から生成された非常にリアルな画像の開発が進んでいます。
– 生成された画像の視覚的な品質の向上は、メディアフォレンジック分野に潜在的な脅威をもたらす可能性があります。
– 本論文は、言語-画像生成モデルがメディアフォレンジックに与える課題のレベルを調査することを目的としています。
– これを実現するために、DALL-E2言語-画像モデルを活用して、テキストプロンプトに従ってスパイスされたマスクされた領域を自動的に生成する新しいアプローチを提案しています。
– 実際の画像-キャプションペアをローカルまたはグローバルに操作して、合計3,621の画像を生成しました。
– この生成方法により新しい画像データセット、AutoSpliceが作成され、5,894のManipulatedとAuthenticな画像を含んでいます。
– このデータセットは、偽造検出と位置決めの2つのメディアフォレンジックタスクの下で評価されます。
– 長期的な実験により、AutoSpliceデータセットが新たな変化として検出されることがほとんどないことがわかりました。
– しかし、欠陥修正モデルが使用されると、両方のタスクで性能が向上します。

要約(オリジナル)

Recent advancements in language-image models have led to the development of highly realistic images that can be generated from textual descriptions. However, the increased visual quality of these generated images poses a potential threat to the field of media forensics. This paper aims to investigate the level of challenge that language-image generation models pose to media forensics. To achieve this, we propose a new approach that leverages the DALL-E2 language-image model to automatically generate and splice masked regions guided by a text prompt. To ensure the creation of realistic manipulations, we have designed an annotation platform with human checking to verify reasonable text prompts. This approach has resulted in the creation of a new image dataset called AutoSplice, containing 5,894 manipulated and authentic images. Specifically, we have generated a total of 3,621 images by locally or globally manipulating real-world image-caption pairs, which we believe will provide a valuable resource for developing generalized detection methods in this area. The dataset is evaluated under two media forensic tasks: forgery detection and localization. Our extensive experiments show that most media forensic models struggle to detect the AutoSplice dataset as an unseen manipulation. However, when fine-tuned models are used, they exhibit improved performance in both tasks.

arxiv情報

著者 Shan Jia,Mingzhen Huang,Zhou Zhou,Yan Ju,Jialing Cai,Siwei Lyu
発行日 2023-04-14 00:14:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク