要約
画像内の改ざんされたピクセルを特定することに重点を置いた画像偽造位置特定は、大幅な進歩を遂げています。
従来のアプローチでは、多くの場合、この課題を画像セグメンテーションの変形としてモデル化し、偽造領域のバイナリ セグメンテーションを最終製品として扱います。
私たちは、基本的なバイナリ偽造マスクはモデル予測を説明するには不十分であると主張します。
このモデルが特定の領域を正確に特定し、すべての偽造ピクセルを同じように扱うため、最も偽物に見える部分を見つけることが困難になる理由は明らかにされていません。
この研究では、偽造画像の顕著領域に焦点を当てた解釈を生成することで、前述の制限を軽減します。
これをサポートするために、ディープフェイク技術を使用して操作され、手動の解釈可能なテキスト注釈と組み合わせられた顔画像で構成されるマルチモーダル トランパー トレーシング (MMTT) データセットを作成しました。
高品質のアノテーションを収集するために、アノテーターは、操作された画像を注意深く観察し、偽造領域の典型的な特徴を明確にするように指示されます。
続いて、128,303 個の画像とテキストのペアのデータセットを収集します。
MMTT データセットを活用して、偽造の位置特定と解釈を同時に行うために設計されたアーキテクチャである ForgeryTalker を開発します。
ForgeryTalker はまず、偽造プロンプター ネットワークをトレーニングして、説明テキスト内の重要な手がかりを特定します。
その後、リージョン プロンプターがマルチモーダル大規模言語モデルに組み込まれ、ローカリゼーションと解釈という 2 つの目標を達成するための微調整が行われます。
MMTT データセットに対して行われた広範な実験により、提案したモデルの優れたパフォーマンスが検証されました。
データセット、コード、および事前トレーニングされたチェックポイントは、さらなる研究を促進し、結果の再現性を確保するために一般に公開されます。
要約(オリジナル)
Image forgery localization, which centers on identifying tampered pixels within an image, has seen significant advancements. Traditional approaches often model this challenge as a variant of image segmentation, treating the binary segmentation of forged areas as the end product. We argue that the basic binary forgery mask is inadequate for explaining model predictions. It doesn’t clarify why the model pinpoints certain areas and treats all forged pixels the same, making it hard to spot the most fake-looking parts. In this study, we mitigate the aforementioned limitations by generating salient region-focused interpretation for the forgery images. To support this, we craft a Multi-Modal Tramper Tracing (MMTT) dataset, comprising facial images manipulated using deepfake techniques and paired with manual, interpretable textual annotations. To harvest high-quality annotation, annotators are instructed to meticulously observe the manipulated images and articulate the typical characteristics of the forgery regions. Subsequently, we collect a dataset of 128,303 image-text pairs. Leveraging the MMTT dataset, we develop ForgeryTalker, an architecture designed for concurrent forgery localization and interpretation. ForgeryTalker first trains a forgery prompter network to identify the pivotal clues within the explanatory text. Subsequently, the region prompter is incorporated into multimodal large language model for finetuning to achieve the dual goals of localization and interpretation. Extensive experiments conducted on the MMTT dataset verify the superior performance of our proposed model. The dataset, code as well as pretrained checkpoints will be made publicly available to facilitate further research and ensure the reproducibility of our results.
arxiv情報
著者 | Jingchun Lian,Lingyu Liu,Yaxiong Wang,Yujiao Wu,Li Zhu,Zhedong Zheng |
発行日 | 2024-12-27 15:23:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google