VGMShield: Mitigating Misuse of Video Generative Models

要約

ビデオ生成の急速な進歩により、人々はビデオ生成モデルを便利に利用して、特定の要望に合わせたビデオを作成できるようになりました。
それにもかかわらず、虚偽の情報を作成および広めるという悪用の可能性についての懸念も高まっています。
この作業では、VGMShield を紹介します。これは、フェイク ビデオ生成のライフサイクル全体にわたる 3 つの単純かつ先駆的な軽減策のセットです。
私たちは \textit{フェイクビデオ検出} から始めて、生成されたビデオに独自性があるかどうか、そして本物のビデオと区別できるかどうかを理解しようとします。
次に、偽のビデオをそれを生成するモデルにマッピングし直す \textit{tracing} 問題を調査します。
これらに向けて、ビデオの不一致を特定するバックボーンとして、{\it 時空間ダイナミクス} に焦点を当てた事前トレーニング済みモデルを活用することを提案します。
7 つの最先端のオープンソース モデルでの実験を通じて、現在のモデルでは時空間関係を完全には処理できないため、ほぼ完璧な精度で検出と追跡を達成できることを実証しました。
さらに、将来の生成モデルの改善を期待して、画像に目に見えない摂動を追加して、生成されたビデオを非現実的に見せる{\it 防止}手法を提案します。
フェイク ビデオの検出と追跡と併せて、当社の多面的なソリューション セットは、ビデオ生成モデルの悪用を効果的に軽減できます。

要約(オリジナル)

With the rapid advancement in video generation, people can conveniently utilize video generation models to create videos tailored to their specific desires. Nevertheless, there are also growing concerns about their potential misuse in creating and disseminating false information. In this work, we introduce VGMShield: a set of three straightforward but pioneering mitigations through the lifecycle of fake video generation. We start from \textit{fake video detection} trying to understand whether there is uniqueness in generated videos and whether we can differentiate them from real videos; then, we investigate the \textit{tracing} problem, which maps a fake video back to a model that generates it. Towards these, we propose to leverage pre-trained models that focus on {\it spatial-temporal dynamics} as the backbone to identify inconsistencies in videos. Through experiments on seven state-of-the-art open-source models, we demonstrate that current models still cannot perfectly handle spatial-temporal relationships, and thus, we can accomplish detection and tracing with nearly perfect accuracy. Furthermore, anticipating future generative model improvements, we propose a {\it prevention} method that adds invisible perturbations to images to make the generated videos look unreal. Together with fake video detection and tracing, our multi-faceted set of solutions can effectively mitigate misuse of video generative models.

arxiv情報

著者 Yan Pang,Yang Zhang,Tianhao Wang
発行日 2024-02-20 16:39:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG, eess.IV パーマリンク