要約
ビデオ生成は大幅に進歩しており、非現実的な出力の作成から、視覚的に説得力があり、一時的に一貫性のあるように見えるビデオの生成に進化しています。
これらのビデオ生成モデルを評価するために、Vbenchなどのベンチマークが忠実さを評価するために開発されました。これは、フレームごとの美学、時間的一貫性、基本的な迅速な順守などの要因を測定しています。
しかし、これらの側面は主に表面的な忠実さを表しており、ビデオが現実世界の原則に準拠するかどうかではなく、視覚的に説得力があるかどうかに焦点を当てています。
最近のモデルはこれらのメトリックでますますうまく機能していますが、視覚的にもっともらしいだけでなく根本的に現実的なビデオを生成するのに苦労しています。
ビデオ生成を通じて実際の「世界モデル」を達成するために、次のフロンティアは本質的な忠実さにあり、生成されたビデオが物理的法則、常識的推論、解剖学的正確性、および構成の完全性を順守することを保証します。
このレベルのリアリズムを達成することは、AI支援映画制作やシミュレートされた世界モデリングなどのアプリケーションにとって不可欠です。
このギャップを埋めるために、Vbench-2.0を導入します。VBench-2.0は、本質的な忠実さについてビデオ生成モデルを自動的に評価するように設計された次世代ベンチマークです。
vbench-2.0は、人間の忠実度、制御性、創造性、物理学、および常識の5つの重要な側面を評価し、それぞれがさらに微調整された能力に分類されます。
個々の寸法に合わせて、私たちの評価フレームワークは、最先端のVLMやLLMなどのジェネラリストと、ビデオ生成のために提案された異常検出方法を含む専門家を統合します。
私たちは、人間の判断との整合を確保するために、広範な注釈を実施します。
本質的な忠実さを超えて本質的な忠実さに向かって押し進めることにより、Vbench-2.0は、本質的な忠実さを追求して、次世代のビデオ生成モデルの新しい基準を設定することを目指しています。
要約(オリジナル)
Video generation has advanced significantly, evolving from producing unrealistic outputs to generating videos that appear visually convincing and temporally coherent. To evaluate these video generative models, benchmarks such as VBench have been developed to assess their faithfulness, measuring factors like per-frame aesthetics, temporal consistency, and basic prompt adherence. However, these aspects mainly represent superficial faithfulness, which focus on whether the video appears visually convincing rather than whether it adheres to real-world principles. While recent models perform increasingly well on these metrics, they still struggle to generate videos that are not just visually plausible but fundamentally realistic. To achieve real ‘world models’ through video generation, the next frontier lies in intrinsic faithfulness to ensure that generated videos adhere to physical laws, commonsense reasoning, anatomical correctness, and compositional integrity. Achieving this level of realism is essential for applications such as AI-assisted filmmaking and simulated world modeling. To bridge this gap, we introduce VBench-2.0, a next-generation benchmark designed to automatically evaluate video generative models for their intrinsic faithfulness. VBench-2.0 assesses five key dimensions: Human Fidelity, Controllability, Creativity, Physics, and Commonsense, each further broken down into fine-grained capabilities. Tailored for individual dimensions, our evaluation framework integrates generalists such as state-of-the-art VLMs and LLMs, and specialists, including anomaly detection methods proposed for video generation. We conduct extensive annotations to ensure alignment with human judgment. By pushing beyond superficial faithfulness toward intrinsic faithfulness, VBench-2.0 aims to set a new standard for the next generation of video generative models in pursuit of intrinsic faithfulness.
arxiv情報
著者 | Dian Zheng,Ziqi Huang,Hongbo Liu,Kai Zou,Yinan He,Fan Zhang,Yuanhan Zhang,Jingwen He,Wei-Shi Zheng,Yu Qiao,Ziwei Liu |
発行日 | 2025-03-27 17:57:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google