Impossible Videos

要約

最近の合成ビデオは、現実世界のビデオのデータ不足と多様性を補完するために広く使用されています。
現在の合成データセットは、主に現実世界のシナリオを複製し、不可能で反事実的で反現実的なビデオ概念を露出していないままにします。
この作業は、2つの質問に答えることを目的としています。1)今日のビデオ生成モデルは、プロンプトに効果的に従って不可能なビデオコンテンツを作成できますか?
2)今日のビデオ理解モデルは、不可能なビデオを理解するのに十分ですか?
この目的のために、ビデオの理解と生成の進歩を評価し、促進するために設計された新しいベンチマークであるIPVベンチを紹介します。
IPVベンチは、4つのドメイン、14のカテゴリを含む包括的な分類法によって支えられています。
物理的、生物学的、地理的、または社会的法則に反する多様なシーンを特徴としています。
分類に基づいて、ビデオ生成モデルを評価するためのプロンプトスイートが構築され、迅速なフォローと創造性の能力に挑戦します。
さらに、ビデオベンチマークがキュレーションされており、不可能なビデオを理解する能力に関するビデオllmsを評価します。これには、特に時間的ダイナミクスと世界の知識に関する推論が必要です。
包括的な評価により、ビデオモデルの将来の方向性の制限と洞察が明らかになり、次世代のビデオモデルへの道が開かれています。

要約(オリジナル)

Synthetic videos nowadays is widely used to complement data scarcity and diversity of real-world videos. Current synthetic datasets primarily replicate real-world scenarios, leaving impossible, counterfactual and anti-reality video concepts underexplored. This work aims to answer two questions: 1) Can today’s video generation models effectively follow prompts to create impossible video content? 2) Are today’s video understanding models good enough for understanding impossible videos? To this end, we introduce IPV-Bench, a novel benchmark designed to evaluate and foster progress in video understanding and generation. IPV-Bench is underpinned by a comprehensive taxonomy, encompassing 4 domains, 14 categories. It features diverse scenes that defy physical, biological, geographical, or social laws. Based on the taxonomy, a prompt suite is constructed to evaluate video generation models, challenging their prompt following and creativity capabilities. In addition, a video benchmark is curated to assess Video-LLMs on their ability of understanding impossible videos, which particularly requires reasoning on temporal dynamics and world knowledge. Comprehensive evaluations reveal limitations and insights for future directions of video models, paving the way for next-generation video models.

arxiv情報

著者 Zechen Bai,Hai Ci,Mike Zheng Shou
発行日 2025-03-18 16:10:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク