ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation

要約

私たちは、タイムラプスビデオ生成における T2V モデル (Sora や Lumiere など) の時間的および変成的機能を評価するための、新しいテキストからビデオ (T2V) 生成ベンチマークである ChronoMagic-Bench を提案します。
生成されたビデオの視覚的な品質とテキストの関連性に焦点を当てた既存のベンチマークとは対照的に、ChronoMagic-Bench は、顕著な変成振幅と時間的一貫性を備えたタイムラプス ビデオを生成するモデルの機能に焦点を当てています。
このベンチマークは、自由形式のテキスト クエリで T2V モデルの物理学、生物学、化学の機能を調査します。
これらの目的のために、ChronoMagic-Bench は 1,649 個のプロンプトと現実世界のビデオを参考として導入しており、生物、人間が作成した、気象、物理現象という 4 つの主要なタイプのタイムラプス ビデオに分類され、さらに 75 のサブカテゴリに分類されています。
この分類は、多様で複雑な変換を処理するモデルの能力を包括的に評価します。
人間の好みをベンチマークと正確に一致させるために、ビデオの変成属性と時間的一貫性を評価するための 2 つの新しい自動メトリック、MTScore と CHScore を導入しました。
MTScore は時間の経過に伴う変化の程度を反映する変成振幅を測定し、CHScore は時間的一貫性を評価して、生成されたビデオが論理的な進行と連続性を維持していることを確認します。
ChronoMagic-Bench に基づいて、10 の代表的な T2V モデルの包括的な手動評価を実施し、プロンプトのさまざまなカテゴリにわたってその長所と短所を明らかにし、ビデオ生成研究における現在のギャップに対処する徹底的な評価フレームワークを提供します。
さらに、720p タイムラプス ビデオと詳細なキャプションの 460,000 個の高品質ペアを含む大規模な ChronoMagic-Pro データセットを作成し、高い物理的適切性と大きな変成振幅を保証します。

要約(オリジナル)

We propose a novel text-to-video (T2V) generation benchmark, ChronoMagic-Bench, to evaluate the temporal and metamorphic capabilities of the T2V models (e.g. Sora and Lumiere) in time-lapse video generation. In contrast to existing benchmarks that focus on the visual quality and textual relevance of generated videos, ChronoMagic-Bench focuses on the model’s ability to generate time-lapse videos with significant metamorphic amplitude and temporal coherence. The benchmark probes T2V models for their physics, biology, and chemistry capabilities, in a free-form text query. For these purposes, ChronoMagic-Bench introduces 1,649 prompts and real-world videos as references, categorized into four major types of time-lapse videos: biological, human-created, meteorological, and physical phenomena, which are further divided into 75 subcategories. This categorization comprehensively evaluates the model’s capacity to handle diverse and complex transformations. To accurately align human preference with the benchmark, we introduce two new automatic metrics, MTScore and CHScore, to evaluate the videos’ metamorphic attributes and temporal coherence. MTScore measures the metamorphic amplitude, reflecting the degree of change over time, while CHScore assesses the temporal coherence, ensuring the generated videos maintain logical progression and continuity. Based on the ChronoMagic-Bench, we conduct comprehensive manual evaluations of ten representative T2V models, revealing their strengths and weaknesses across different categories of prompts, and providing a thorough evaluation framework that addresses current gaps in video generation research. Moreover, we create a large-scale ChronoMagic-Pro dataset, containing 460k high-quality pairs of 720p time-lapse videos and detailed captions ensuring high physical pertinence and large metamorphic amplitude.

arxiv情報

著者 Shenghai Yuan,Jinfa Huang,Yongqi Xu,Yaoyang Liu,Shaofeng Zhang,Yujun Shi,Ruijie Zhu,Xinhua Cheng,Jiebo Luo,Li Yuan
発行日 2024-06-26 17:50:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク