ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation

要約

最近の研究では、大規模なテキストから画像へのモデルをビデオ領域に拡張することに成功し、有望な結果が得られましたが、計算コストが高く、大量のビデオ データが必要になります。
この作業では、既製のテキストから画像への生成メソッド (
例: 安定拡散)。
ConditionVideo は、ランダム ノイズまたは指定されたシーン ビデオからリアルなダイナミック ビデオを生成します。
私たちの方法は、モーション表現を条件ガイドと風景のモーションコンポーネントに明示的に分解します。
この目的を達成するために、ConditionVideo モデルは UNet ブランチとコントロール ブランチを使用して設計されています。
時間的コヒーレンスを改善するために、スパース双方向時空間注意 (sBiST-Attn) を導入します。
3D 制御ネットワークは従来の 2D 制御ネットワーク モデルを拡張し、時間領域の双方向フレームをさらに活用することで条件付き生成の精度を強化することを目的としています。
私たちの方法は、フレームの一貫性、クリップスコア、および条件付き精度の点で優れたパフォーマンスを示し、他の比較された方法よりも優れています。

要約(オリジナル)

Recent works have successfully extended large-scale text-to-image models to the video domain, producing promising results but at a high computational cost and requiring a large amount of video data. In this work, we introduce ConditionVideo, a training-free approach to text-to-video generation based on the provided condition, video, and input text, by leveraging the power of off-the-shelf text-to-image generation methods (e.g., Stable Diffusion). ConditionVideo generates realistic dynamic videos from random noise or given scene videos. Our method explicitly disentangles the motion representation into condition-guided and scenery motion components. To this end, the ConditionVideo model is designed with a UNet branch and a control branch. To improve temporal coherence, we introduce sparse bi-directional spatial-temporal attention (sBiST-Attn). The 3D control network extends the conventional 2D controlnet model, aiming to strengthen conditional generation accuracy by additionally leveraging the bi-directional frames in the temporal domain. Our method exhibits superior performance in terms of frame consistency, clip score, and conditional accuracy, outperforming other compared methods.

arxiv情報

著者 Bo Peng,Xinyuan Chen,Yaohui Wang,Chaochao Lu,Yu Qiao
発行日 2023-10-11 17:46:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク