On the Content Bias in Fréchet Video Distance

要約

ビデオ生成モデルを評価するための著名な指標である Fr\’echet Video Distance (FVD) は、人間の知覚と矛盾する場合があることが知られています。
この論文では、FVD が時間的リアリズムよりもフレームごとの品質に偏っている範囲を調査し、その原因を特定することを目的としています。
まず、フレームと動きの品質を分離することで時間軸に対する FVD の感度を定量化し、大きな時間的破損があっても FVD がわずかに増加するだけであることを発見しました。
次に、生成されたビデオを分析し、モーションを含まない生成されたビデオの大規模なセットから慎重にサンプリングすることで、時間品質を向上させることなく FVD を大幅に削減できることを示します。
どちらの調査も、FVD が個々のフレームの品質に偏っていることを示唆しています。
さらに、この偏りは、コンテンツに偏ったデータセットでトレーニングされた教師付きビデオ分類器から抽出された特徴に起因する可能性があることも観察しました。
最近の大規模な自己教師ありビデオ モデルから抽出された特徴を備えた FVD は、画質への偏りが少ないことを示します。
最後に、仮説を検証するために、いくつかの実例を再検討します。

要約(オリジナル)

Fr\’echet Video Distance (FVD), a prominent metric for evaluating video generation models, is known to conflict with human perception occasionally. In this paper, we aim to explore the extent of FVD’s bias toward per-frame quality over temporal realism and identify its sources. We first quantify the FVD’s sensitivity to the temporal axis by decoupling the frame and motion quality and find that the FVD increases only slightly with large temporal corruption. We then analyze the generated videos and show that via careful sampling from a large set of generated videos that do not contain motions, one can drastically decrease FVD without improving the temporal quality. Both studies suggest FVD’s bias towards the quality of individual frames. We further observe that the bias can be attributed to the features extracted from a supervised video classifier trained on the content-biased dataset. We show that FVD with features extracted from the recent large-scale self-supervised video models is less biased toward image quality. Finally, we revisit a few real-world examples to validate our hypothesis.

arxiv情報

著者 Songwei Ge,Aniruddha Mahapatra,Gaurav Parmar,Jun-Yan Zhu,Jia-Bin Huang
発行日 2024-04-18 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク