FreePCA: Integrating Consistency Information across Long-short Frames in Training-free Long Video Generation via Principal Component Analysis

要約

長尺映像の生成では、フレーム数の変化による分布のずれに悩まされる短尺映像で学習したモデルを用いて、長尺映像を生成する。そのため、視覚と動きの品質を高めるために元の短いフレームからの局所的な情報を利用し、外観の一貫性を確保するために長いフレーム全体からの大域的な情報を利用する必要がある。既存のトレーニング不要の手法では、動画における外観と動きは密接に結合しているため、両者の利点を効果的に統合することは困難であり、動きの不一致や視覚的品質につながる。本論文では、主成分分析(PCA)を適用することで、大域的情報と局所的情報を、一貫性のある外観と動きの強度情報に正確に分離できることを明らかにし、大域的一貫性と局所的品質の洗練された相補的統合を可能にする。この知見に基づき、高い一貫性と品質を同時に達成する、PCAに基づくトレーニング不要の長尺映像生成パラダイムであるFreePCAを提案する。具体的には、主成分空間における余弦類似度を測定することで、一貫した外観と動きの強さの特徴を切り離す。また、初期ノイズの平均統計量を再利用することで一貫性をさらに高める。実験は、FreePCAが訓練を必要とせずに様々なビデオ拡散モデルに適用でき、大幅な改善につながることを実証している。コードはhttps://github.com/JosephTiTan/FreePCA。

要約(オリジナル)

Long video generation involves generating extended videos using models trained on short videos, suffering from distribution shifts due to varying frame counts. It necessitates the use of local information from the original short frames to enhance visual and motion quality, and global information from the entire long frames to ensure appearance consistency. Existing training-free methods struggle to effectively integrate the benefits of both, as appearance and motion in videos are closely coupled, leading to motion inconsistency and visual quality. In this paper, we reveal that global and local information can be precisely decoupled into consistent appearance and motion intensity information by applying Principal Component Analysis (PCA), allowing for refined complementary integration of global consistency and local quality. With this insight, we propose FreePCA, a training-free long video generation paradigm based on PCA that simultaneously achieves high consistency and quality. Concretely, we decouple consistent appearance and motion intensity features by measuring cosine similarity in the principal component space. Critically, we progressively integrate these features to preserve original quality and ensure smooth transitions, while further enhancing consistency by reusing the mean statistics of the initial noise. Experiments demonstrate that FreePCA can be applied to various video diffusion models without requiring training, leading to substantial improvements. Code is available at https://github.com/JosephTiTan/FreePCA.

arxiv情報

著者 Jiangtong Tan,Hu Yu,Jie Huang,Jie Xiao,Feng Zhao
発行日 2025-05-02 10:27:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク