Beyond FVD: Enhanced Evaluation Metrics for Video Generation Quality


Fr\’echet Video Distance (FVD) は、ビデオ生成の配信品質を評価するために広く採用されている指標です。
私たちの分析により、次の 3 つの重大な制限が明らかになりました。(1) Inflated 3D Convnet (I3D) 特徴空間の非ガウス性。
(2) I3D 特徴は時間的な歪みに対して鈍感である。
(3) 信頼性の高い推定に必要なサンプル サイズが非現実的である。
これらの発見は、FVD の信頼性を損ない、FVD がビデオ生成評価の独立した指標として不十分であることを示しています。
幅広いメトリクスとバックボーン アーキテクチャの広範な分析を経て、多項式カーネルによる最大平均不一致を使用して測定された、ジョイント エンベディング予測アーキテクチャから導出された特徴に基づいた JEDi (JEPA エンベディング ディスタンス) を提案します。
複数のオープンソース データセットに対する私たちの実験では、これが広く使用されている FVD メトリクスの優れた代替手段であるという明らかな証拠が示されており、サンプルの 16% だけで定常値に到達するだけで、人間の評価との整合性が平均 34% 向上します。


The Fr\’echet Video Distance (FVD) is a widely adopted metric for evaluating video generation distribution quality. However, its effectiveness relies on critical assumptions. Our analysis reveals three significant limitations: (1) the non-Gaussianity of the Inflated 3D Convnet (I3D) feature space; (2) the insensitivity of I3D features to temporal distortions; (3) the impractical sample sizes required for reliable estimation. These findings undermine FVD’s reliability and show that FVD falls short as a standalone metric for video generation evaluation. After extensive analysis of a wide range of metrics and backbone architectures, we propose JEDi, the JEPA Embedding Distance, based on features derived from a Joint Embedding Predictive Architecture, measured using Maximum Mean Discrepancy with polynomial kernel. Our experiments on multiple open-source datasets show clear evidence that it is a superior alternative to the widely used FVD metric, requiring only 16% of the samples to reach its steady value, while increasing alignment with human evaluation by 34%, on average.


著者 Ge Ya,Luo,Gian Favero,Zhi Hao Luo,Alexia Jolicoeur-Martineau,Christopher Pal
発行日 2024-10-07 17:07:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク