Video Inpainting Localization with Contrastive Learning

要約

ディープ ビデオ インペインティングは通常、フェイク ビデオを作成するために重要なオブジェクトを削除するための悪意のある操作として使用されます。
修復された領域を盲目的に識別することは重要です。
このレターでは、ContrAstive Learning (ViLocal) を使用した Video Inpainting LOcalization のための、シンプルかつ効果的なフォレンジック スキームを提案します。
具体的には、3D ユニフォーム エンコーダがビデオ ノイズ残差に適用され、効果的な時空間フォレンジック特徴が学習されます。
識別力を強化するために、教師ありコントラスト学習が採用され、正/負の元のピクセルと偽造されたピクセルのペアを引き付けたり反発したりすることで、ペイントされたビデオの局所的な不一致をキャプチャします。
ピクセル単位の修復ローカリゼーション マップは、特殊な 2 段階のトレーニング戦略を備えた軽量の畳み込みデコーダーによって生成されます。
十分なトレーニング サンプルを準備するために、フレームごとにピクセル レベルの注釈を備えた 2500 ビデオのビデオ オブジェクト セグメンテーション データセットを構築します。
広範な実験結果により、最先端技術に対する ViLocal の優位性が実証されています。
コードとデータセットは https://github.com/multimediaFor/ViLocal で入手できます。

要約(オリジナル)

Deep video inpainting is typically used as malicious manipulation to remove important objects for creating fake videos. It is significant to identify the inpainted regions blindly. This letter proposes a simple yet effective forensic scheme for Video Inpainting LOcalization with ContrAstive Learning (ViLocal). Specifically, a 3D Uniformer encoder is applied to the video noise residual for learning effective spatiotemporal forensic features. To enhance the discriminative power, supervised contrastive learning is adopted to capture the local inconsistency of inpainted videos through attracting/repelling the positive/negative pristine and forged pixel pairs. A pixel-wise inpainting localization map is yielded by a lightweight convolution decoder with a specialized two-stage training strategy. To prepare enough training samples, we build a video object segmentation dataset of 2500 videos with pixel-level annotations per frame. Extensive experimental results validate the superiority of ViLocal over state-of-the-arts. Code and dataset will be available at https://github.com/multimediaFor/ViLocal.

arxiv情報

著者 Zijie Lou,Gang Cao,Man Lin
発行日 2024-06-25 15:15:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク