要約
私たちの日常生活のさまざまな分野で、すべてのメディア情報に 1 つで合成されたコンテンツの使用が増え続けているため、改ざんされたメッセージの蔓延を避けるために、ディープフェイク検出ツールの強いニーズが生じています。
操作されたコンテンツ、特に画像やビデオを特定するプロセスは、基本的に、特に偽の生成プロセスに起因するいくつかの不一致および/または異常の存在を探すことによって実行されます。
科学文献には、可能性のある変更を強調するために、さまざまなアドホック機能を利用するさまざまな手法が存在します。
この論文では、ディープフェイクの作成が、取得時にシーン全体が持っていた特性にどのような影響を与えるかを調査することを提案します。
特に、画像 (ビデオ) がキャプチャされるとき、シーンの全体的な形状 (例: 表面) と取得プロセス (例: 照明) によって、画像のピクセル値によって直接表現される一義的な環境が決まります。
これらすべての固有の関係は、ディープフェイク生成プロセスによって変更される可能性があります。
画像に描かれた表面の特性の分析に頼ることにより、ディープフェイク検出のために CNN をトレーニングするために使用できる記述子を取得することができます。このようなアプローチを SurFake と呼びます。
さまざまな種類のディープフェイク偽造と多様なディープラーニング モデルに対して FF++ データセットで実行された実験結果により、このような機能を元の画像と変更された画像を区別するために採用できることが確認されました。
さらに、実験により、視覚データと組み合わせて、検出精度の点で一定の向上をもたらすことができることが証明されています。
要約(オリジナル)
The ever-increasing use of synthetically generated content in different sectors of our everyday life, one for all media information, poses a strong need for deepfake detection tools in order to avoid the proliferation of altered messages. The process to identify manipulated content, in particular images and videos, is basically performed by looking for the presence of some inconsistencies and/or anomalies specifically due to the fake generation process. Different techniques exist in the scientific literature that exploit diverse ad-hoc features in order to highlight possible modifications. In this paper, we propose to investigate how deepfake creation can impact on the characteristics that the whole scene had at the time of the acquisition. In particular, when an image (video) is captured the overall geometry of the scene (e.g. surfaces) and the acquisition process (e.g. illumination) determine a univocal environment that is directly represented by the image pixel values; all these intrinsic relations are possibly changed by the deepfake generation process. By resorting to the analysis of the characteristics of the surfaces depicted in the image it is possible to obtain a descriptor usable to train a CNN for deepfake detection: we refer to such an approach as SurFake. Experimental results carried out on the FF++ dataset for different kinds of deepfake forgeries and diverse deep learning models confirm that such a feature can be adopted to discriminate between pristine and altered images; furthermore, experiments witness that it can also be combined with visual data to provide a certain improvement in terms of detection accuracy.
arxiv情報
著者 | Andrea Ciamarra,Roberto Caldelli,Federico Becattini,Lorenzo Seidenari,Alberto Del Bimbo |
発行日 | 2024-04-17 13:41:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google