要約
ビデオ生成評価は、生成モデルが視覚的に現実的で高品質のビデオを生成しながら、人間の期待に合わせて確実に生成するために不可欠です。
現在のビデオ生成ベンチマークは、2つの主要なカテゴリに分類されます。メトリックと埋め込みを使用して、複数の次元で生成されたビデオ品質を評価しますが、人間の判断との整合性を欠いていることが多い従来のベンチマークに分類されます。
そして、大規模な言語モデル(LLM)ベースのベンチマークは、人間のような推論が可能ですが、ビデオ品質のメトリックとクロスモーダルの一貫性の限られた理解によって制約されています。
これらの課題に対処し、人間の好みとより適切なベンチマークを確立するために、このペーパーでは、豊富なプロンプトスイートと広範な評価の寸法を備えた包括的なベンチマークであるビデオベンチを紹介します。
このベンチマークは、生成モデルのビデオ生成評価に関連するすべての次元にわたってMLLMを体系的に活用する最初の試みを表しています。
少数のショットスコアリングとクエリチェーンテクニックを組み込むことにより、ビデオベンチは、生成されたビデオ評価に構造化されたスケーラブルなアプローチを提供します。
SORAを含む高度なモデルの実験は、ビデオベンチがすべての次元にわたって人間の好みと優れた整合性を達成することを示しています。
さらに、私たちのフレームワークの評価が人間の評価から分かれている場合、それは一貫してより客観的で正確な洞察を提供し、従来の人間の判断よりもさらに大きな潜在的な利点を示唆しています。
要約(オリジナル)
Video generation assessment is essential for ensuring that generative models produce visually realistic, high-quality videos while aligning with human expectations. Current video generation benchmarks fall into two main categories: traditional benchmarks, which use metrics and embeddings to evaluate generated video quality across multiple dimensions but often lack alignment with human judgments; and large language model (LLM)-based benchmarks, though capable of human-like reasoning, are constrained by a limited understanding of video quality metrics and cross-modal consistency. To address these challenges and establish a benchmark that better aligns with human preferences, this paper introduces Video-Bench, a comprehensive benchmark featuring a rich prompt suite and extensive evaluation dimensions. This benchmark represents the first attempt to systematically leverage MLLMs across all dimensions relevant to video generation assessment in generative models. By incorporating few-shot scoring and chain-of-query techniques, Video-Bench provides a structured, scalable approach to generated video evaluation. Experiments on advanced models including Sora demonstrate that Video-Bench achieves superior alignment with human preferences across all dimensions. Moreover, in instances where our framework’s assessments diverge from human evaluations, it consistently offers more objective and accurate insights, suggesting an even greater potential advantage over traditional human judgment.
arxiv情報
著者 | Hui Han,Siyuan Li,Jiaqi Chen,Yiwen Yuan,Yuling Wu,Chak Tou Leong,Hanwen Du,Junchen Fu,Youhua Li,Jie Zhang,Chi Zhang,Li-jia Li,Yongxin Ni |
発行日 | 2025-04-29 15:56:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google