Video ControlNet: Towards Temporally Consistent Synthetic-to-Real Video Translation Using Conditional Image Diffusion Models

要約

この研究では、さまざまな長さのビデオで時間的に一貫した合成ビデオから実際のビデオへの変換を達成するための効率的かつ効果的なアプローチを紹介します。
私たちの方法では、既製の条件付き画像拡散モデルを活用し、複数の合成画像から実画像への生成を並行して実行できます。
合成ビデオから利用可能なオプティカル フロー情報を利用することで、私たちのアプローチは、フレーム全体で対応するピクセル間の時間的一貫性をシームレスに強化します。
これは、ジョイントノイズの最適化によって実現され、空間的および時間的な不一致を効果的に最小限に抑えます。
私たちの知る限り、私たちが提案した方法は、条件付き画像拡散モデルを使用して、多様で時間的に一貫した合成ビデオから実際のビデオへの変換を達成した最初の方法です。
さらに、私たちのアプローチでは、拡散モデルのトレーニングや微調整は必要ありません。
合成ビデオから本物のビデオへの変換に関するさまざまなベンチマークで行われた広範な実験により、定量的および定性的な両方で、私たちのアプローチの有効性が実証されました。
最後に、時間的一貫性と視覚的品質の両方の点で、私たちの方法が他のベースライン方法よりも優れていることを示します。

要約(オリジナル)

In this study, we present an efficient and effective approach for achieving temporally consistent synthetic-to-real video translation in videos of varying lengths. Our method leverages off-the-shelf conditional image diffusion models, allowing us to perform multiple synthetic-to-real image generations in parallel. By utilizing the available optical flow information from the synthetic videos, our approach seamlessly enforces temporal consistency among corresponding pixels across frames. This is achieved through joint noise optimization, effectively minimizing spatial and temporal discrepancies. To the best of our knowledge, our proposed method is the first to accomplish diverse and temporally consistent synthetic-to-real video translation using conditional image diffusion models. Furthermore, our approach does not require any training or fine-tuning of the diffusion models. Extensive experiments conducted on various benchmarks for synthetic-to-real video translation demonstrate the effectiveness of our approach, both quantitatively and qualitatively. Finally, we show that our method outperforms other baseline methods in terms of both temporal consistency and visual quality.

arxiv情報

著者 Ernie Chu,Shuo-Yen Lin,Jun-Cheng Chen
発行日 2023-05-30 16:39:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク