要約
近年、オープンドメインのテキストから動画への変換(T2V)モデルが目覚ましい発展を遂げている。しかし、有望な結果は主に生成された動画の定性的な事例によって示されており、T2Vモデルの定量的な評価は依然として2つの重大な問題に直面している。第一に、既存の研究では、異なるカテゴリのテキストプロンプトに対するT2Vモデルのきめ細かな評価が欠如している。いくつかのベンチマークはプロンプトを分類しているが、それらの分類は単一の側面にのみ焦点を当てているか、動画生成における時間情報を考慮していない。第二に、自動評価指標が人間の基準と一致しているかどうかが不明である。これらの問題に対処するため、我々はFETV(Fine-grained Evaluation of Text-to-Video generation)を提案する。FETVは多面的であり、プロンプトを3つの直交する側面(主要なコンテンツ、制御する属性、プロンプトの複雑さ)に基づいて分類する。また、FETVは時間を意識しており、ビデオ生成に合わせたいくつかの時間的カテゴリを導入している。FETVに基づいて、4つの代表的なT2Vモデルの包括的な手動評価を行い、プロンプトの様々なカテゴリに対する長所と短所を様々な側面から明らかにする。また、自動T2Vメトリクスの信頼性を評価するためのテストベッドとしてFETVを拡張する。FETVの多面的な分類は、異なるシナリオにおけるメトリクスの信頼性をきめ細かく分析することを可能にする。我々は、既存の自動メトリクス(CLIPScoreやFVDなど)は、人間の評価との相関が低いことを発見した。この問題に対処するため、CLIPScoreとFVDを改善するためのいくつかの解決策を検討し、既存のメトリクスよりも人間との相関が有意に高い2つの自動メトリクスを開発した。ベンチマークページ:https://github.com/llyx97/FETV。
要約(オリジナル)
Recently, open-domain text-to-video (T2V) generation models have made remarkable progress. However, the promising results are mainly shown by the qualitative cases of generated videos, while the quantitative evaluation of T2V models still faces two critical problems. Firstly, existing studies lack fine-grained evaluation of T2V models on different categories of text prompts. Although some benchmarks have categorized the prompts, their categorization either only focuses on a single aspect or fails to consider the temporal information in video generation. Secondly, it is unclear whether the automatic evaluation metrics are consistent with human standards. To address these problems, we propose FETV, a benchmark for Fine-grained Evaluation of Text-to-Video generation. FETV is multi-aspect, categorizing the prompts based on three orthogonal aspects: the major content, the attributes to control and the prompt complexity. FETV is also temporal-aware, which introduces several temporal categories tailored for video generation. Based on FETV, we conduct comprehensive manual evaluations of four representative T2V models, revealing their pros and cons on different categories of prompts from different aspects. We also extend FETV as a testbed to evaluate the reliability of automatic T2V metrics. The multi-aspect categorization of FETV enables fine-grained analysis of the metrics’ reliability in different scenarios. We find that existing automatic metrics (e.g., CLIPScore and FVD) correlate poorly with human evaluation. To address this problem, we explore several solutions to improve CLIPScore and FVD, and develop two automatic metrics that exhibit significant higher correlation with humans than existing metrics. Benchmark page: https://github.com/llyx97/FETV.
arxiv情報
著者 | Yuanxin Liu,Lei Li,Shuhuai Ren,Rundong Gao,Shicheng Li,Sishuo Chen,Xu Sun,Lu Hou |
発行日 | 2023-11-03 09:46:05+00:00 |
arxivサイト | arxiv_id(pdf) |