SmoothVideo: Smooth Video Synthesis with Noise Constraints on Diffusion Models for One-shot Video Tuning

要約

最近のワンショット ビデオ調整方法は、事前トレーニングされたテキストから画像へのモデル (安定拡散など) に基づいて特定のビデオ上でネットワークを微調整する方法であり、その柔軟性によりコミュニティで人気があります。
ただし、これらの方法では、多くの場合、矛盾や一貫性のないビデオが作成されます。
これらの制限に対処するために、このペーパーでは、ビデオ フレーム全体にわたるシンプルかつ効果的なノイズ制約を導入します。
この制約は、時間的に隣接するノイズ予測を調整して、スムーズな潜在を実現することを目的としています。
これは、トレーニング段階で損失期間として単純に含めることができます。
既存のワンショット ビデオ調整方法に損失を適用することで、生成されたビデオの全体的な一貫性と滑らかさが大幅に向上します。
さらに、現在のビデオ評価指標は滑らかさを適切に捉えていないと主張します。
これに対処するために、詳細な特徴とその時間的ダイナミクスを考慮する新しいメトリクスを導入します。
実験結果は、さまざまなワンショット ビデオ チューニング ベースラインでよりスムーズなビデオを生成する際のアプローチの有効性を検証します。
ソース コードとビデオ デモは \href{https://github.com/SPengLiang/SmoothVideo}{https://github.com/SPengLiang/SmoothVideo} で入手できます。

要約(オリジナル)

Recent one-shot video tuning methods, which fine-tune the network on a specific video based on pre-trained text-to-image models (e.g., Stable Diffusion), are popular in the community because of the flexibility. However, these methods often produce videos marred by incoherence and inconsistency. To address these limitations, this paper introduces a simple yet effective noise constraint across video frames. This constraint aims to regulate noise predictions across their temporal neighbors, resulting in smooth latents. It can be simply included as a loss term during the training phase. By applying the loss to existing one-shot video tuning methods, we significantly improve the overall consistency and smoothness of the generated videos. Furthermore, we argue that current video evaluation metrics inadequately capture smoothness. To address this, we introduce a novel metric that considers detailed features and their temporal dynamics. Experimental results validate the effectiveness of our approach in producing smoother videos on various one-shot video tuning baselines. The source codes and video demos are available at \href{https://github.com/SPengLiang/SmoothVideo}{https://github.com/SPengLiang/SmoothVideo}.

arxiv情報

著者 Liang Peng,Haoran Cheng,Zheng Yang,Ruisi Zhao,Linxuan Xia,Chaotian Song,Qinglin Lu,Boxi Wu,Wei Liu
発行日 2024-02-06 12:01:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク