T2VEval: Benchmark Dataset and Objective Evaluation Method for T2V-generated Videos

要約

Runway Gen-3、Pika、Sora、Klingなどのモデルで実証されているように、テキストツービデオ(T2V)テクノロジーの最近の進歩は、テクノロジーの適用性と人気を大幅に拡大しました。
この進捗により、T2Vで生成されたビデオの知覚品質を評価し、ビデオ生成モデルを最適化するために、正確な品質評価メトリックに対する需要が高まっています。
ただし、テキスト間出力の品質を評価することは、不自然な行動や人間の認知に逆らう現象など、非常に複雑な歪みが存在するため、依然として困難なままです。
これらの課題に対処するために、13 T2Vモデルによって生成された148個のテキストプロンプトと1,783個のビデオを含むテキスト間の品質評価のための多次元ベンチマークデータセットであるT2Vevalベンチを構築しました。
包括的な評価を確保するために、主観的な実験で4つの次元で各ビデオを採点しました。これは、全体的な印象、テキストビデオの一貫性、現実性、技術的な品質です。
T2Vevalベンチに基づいて、T2V品質評価のためのマルチブランチ融合スキームであるT2Vevalを開発しました。
T2Vevalは、テキストビデオの一貫性、現実性、技術品質の3つのブランチにわたってビデオを評価します。
T2Vevalは、注意ベースの融合モジュールを使用して、各ブランチの機能を効果的に統合し、大規模な言語モデルを使用してスコアを予測します。
さらに、分割訓練戦略を実装し、各ブランチがターゲットを絞った知識を学習しながら、他の人との相乗効果を維持できるようにしました。
実験結果は、T2Vevalが複数のメトリックにわたって最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Recent advances in text-to-video (T2V) technology, as demonstrated by models such as Runway Gen-3, Pika, Sora, and Kling, have significantly broadened the applicability and popularity of the technology. This progress has created a growing demand for accurate quality assessment metrics to evaluate the perceptual quality of T2V-generated videos and optimize video generation models. However, assessing the quality of text-to-video outputs remain challenging due to the presence of highly complex distortions, such as unnatural actions and phenomena that defy human cognition. To address these challenges, we constructed T2VEval-Bench, a multi-dimensional benchmark dataset for text-to-video quality evaluation, which contains 148 textual prompts and 1,783 videos generated by 13 T2V models. To ensure a comprehensive evaluation, we scored each video on four dimensions in the subjective experiment, which are overall impression, text-video consistency, realness, and technical quality. Based on T2VEval-Bench, we developed T2VEval, a multi-branch fusion scheme for T2V quality evaluation. T2VEval assesses videos across three branches: text-video consistency, realness, and technical quality. Using an attention-based fusion module, T2VEval effectively integrates features from each branch and predicts scores with the aid of a large language model. Additionally, we implemented a divide-and-conquer training strategy, enabling each branch to learn targeted knowledge while maintaining synergy with the others. Experimental results demonstrate that T2VEval achieves state-of-the-art performance across multiple metrics.

arxiv情報

著者 Zelu Qi,Ping Shi,Shuqi Wang,Chaoyang Zhang,Fei Zhao,Zefeng Ying,Da Pan,Xi Yang,Zheqi He,Teng Dai
発行日 2025-04-30 14:53:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク