要約
ビデオ拡散モデルは、大規模なデータセットで強力な時空間事前分布を学習することで、高品質のビデオを生成できます。
この論文では、生成プロセスから導出されたこのような事前分布がビデオ認識に適しているかどうか、そして最終的には生成と認識の共同最適化に適しているかどうかを調査することを目的としています。
Stable Video Diffusion に基づいて、一般化された時空間表現を学習するためにランダム フレーム コンディショニング プロセスでトレーニングされた最初の統合フレームワークである GenRec を導入します。
結果として得られるフレームワークは、生成と認識を自然にサポートでき、さらに重要なことに、視覚入力に含まれる情報が限られている場合でも堅牢です。
広範な実験により、認識と生成の両方に対する GenRec の有効性が実証されています。
特に、GenRec は競争力のある認識パフォーマンスを実現し、SSV2 と K400 でそれぞれ 75.8% と 87.2% の精度を提供します。
GenRec は、クラス条件付きの画像からビデオへの生成結果も最高であり、SSV2 および EK-100 データセットで 46.5 および 49.3 の FVD スコアを達成しました。
さらに、GenRec は、限られたフレームのみが観察できるシナリオにおいて、並外れた堅牢性を示します。
要約(オリジナル)
Video diffusion models are able to generate high-quality videos by learning strong spatial-temporal priors on large-scale datasets. In this paper, we aim to investigate whether such priors derived from a generative process are suitable for video recognition, and eventually joint optimization of generation and recognition. Building upon Stable Video Diffusion, we introduce GenRec, the first unified framework trained with a random-frame conditioning process so as to learn generalized spatial-temporal representations. The resulting framework can naturally supports generation and recognition, and more importantly is robust even when visual inputs contain limited information. Extensive experiments demonstrate the efficacy of GenRec for both recognition and generation. In particular, GenRec achieves competitive recognition performance, offering 75.8% and 87.2% accuracy on SSV2 and K400, respectively. GenRec also performs the best class-conditioned image-to-video generation results, achieving 46.5 and 49.3 FVD scores on SSV2 and EK-100 datasets. Furthermore, GenRec demonstrates extraordinary robustness in scenarios that only limited frames can be observed.
arxiv情報
著者 | Zejia Weng,Xitong Yang,Zhen Xing,Zuxuan Wu,Yu-Gang Jiang |
発行日 | 2024-08-27 17:59:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google