GenWorld: Towards Detecting AI-generated Real-world Simulation Videos

要約

ビデオ生成テクノロジーの繁栄は、実際の情報の信頼性を危険にさらし、AIに生成されたビデオ検出器の需要を強化しました。
ある程度の進歩にもかかわらず、高品質の実世界のデータセットの欠如は、信頼できる検出器の開発を妨げます。
このホワイトペーパーでは、AIに生成されたビデオ検出のための大規模で高品質の、実世界のシミュレーションデータセットであるGenWorldを提案します。
GenWorldには、次の特性があります。(1)実際のシミュレーション:GenWorldは、現実世界のシナリオを複製するビデオに焦点を当てています。
(2)高品質:GenWorldは、複数の最先端のビデオ生成モデルを採用して、現実的で高品質の偽造ビデオを提供します。
(3)クロスプロンプトの多様性:GenWorldには、多様なジェネレーターとさまざまな迅速なモダリティ(テキスト、画像、ビデオなど)から生成されたビデオが含まれており、より一般化可能な法医学的機能を学習する可能性を提供します。
既存の方法を分析し、世界モデル(つまり、コスモス)によって生成された高品質のビデオを検出できないことがわかり、実際の手がかりを無視する潜在的な欠点が明らかになります。
これに対処するために、現実世界のAIで生成されたビデオ検出の強力な基準としてマルチビューの一貫性を活用するために、シンプルで効果的なモデルであるSpannDetectorを提案します。
実験は、私たちの方法が優れた結果を達成することを示しており、物理的妥当性に基づいて説明可能なAIに生成されたビデオ検出の有望な方向を強調しています。
GenWorldは、AIに生成されたビデオ検出の分野を進めると考えています。
プロジェクトページ:https://chen-wl20.github.io/genworld

要約(オリジナル)

The flourishing of video generation technologies has endangered the credibility of real-world information and intensified the demand for AI-generated video detectors. Despite some progress, the lack of high-quality real-world datasets hinders the development of trustworthy detectors. In this paper, we propose GenWorld, a large-scale, high-quality, and real-world simulation dataset for AI-generated video detection. GenWorld features the following characteristics: (1) Real-world Simulation: GenWorld focuses on videos that replicate real-world scenarios, which have a significant impact due to their realism and potential influence; (2) High Quality: GenWorld employs multiple state-of-the-art video generation models to provide realistic and high-quality forged videos; (3) Cross-prompt Diversity: GenWorld includes videos generated from diverse generators and various prompt modalities (e.g., text, image, video), offering the potential to learn more generalizable forensic features. We analyze existing methods and find they fail to detect high-quality videos generated by world models (i.e., Cosmos), revealing potential drawbacks of ignoring real-world clues. To address this, we propose a simple yet effective model, SpannDetector, to leverage multi-view consistency as a strong criterion for real-world AI-generated video detection. Experiments show that our method achieves superior results, highlighting a promising direction for explainable AI-generated video detection based on physical plausibility. We believe that GenWorld will advance the field of AI-generated video detection. Project Page: https://chen-wl20.github.io/GenWorld

arxiv情報

著者 Weiliang Chen,Wenzhao Zheng,Yu Zheng,Lei Chen,Jie Zhou,Jiwen Lu,Yueqi Duan
発行日 2025-06-12 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク