VanGogh: A Unified Multimodal Diffusion-based Framework for Video Colorization

要約

ビデオのカラー化は、時間的な一貫性と構造的な完全性を維持しながら、グレースケール ビデオを鮮やかなカラー表現に変換することを目的としています。
既存のビデオのカラー化方法は、特に複雑な動きや多様なセマンティック キューの下では、色のにじみが発生し、包括的な制御が不足していることがよくあります。
この目的を達成するために、ビデオ カラー化のための統合されたマルチモーダル拡散ベースのフレームワークである VanGogh を導入します。
VanGogh は、Dual Qformer を使用して複数のモダリティの特徴を調整および融合することでこれらの課題に取り組み、カラー オーバーフローの削減に役立つ深度ガイド生成プロセスとオプティカル フロー損失によって補完されています。
さらに、一般化を改善し、ちらつきアーティファクトを軽減するために、カラー注入戦略と輝度チャネル置換が実装されています。
この設計のおかげで、ユーザーは生成プロセスをグローバルとローカルの両方で制御できるため、より高品質のカラー化ビデオが得られます。
広範な定性的および定量的評価、およびユーザー調査により、VanGogh が優れた時間的一貫性と色の忠実度を達成していることが実証されています。プロジェクト ページ: https:// becauseimbatman0.github.io/VanGogh。

要約(オリジナル)

Video colorization aims to transform grayscale videos into vivid color representations while maintaining temporal consistency and structural integrity. Existing video colorization methods often suffer from color bleeding and lack comprehensive control, particularly under complex motion or diverse semantic cues. To this end, we introduce VanGogh, a unified multimodal diffusion-based framework for video colorization. VanGogh tackles these challenges using a Dual Qformer to align and fuse features from multiple modalities, complemented by a depth-guided generation process and an optical flow loss, which help reduce color overflow. Additionally, a color injection strategy and luma channel replacement are implemented to improve generalization and mitigate flickering artifacts. Thanks to this design, users can exercise both global and local control over the generation process, resulting in higher-quality colorized videos. Extensive qualitative and quantitative evaluations, and user studies, demonstrate that VanGogh achieves superior temporal consistency and color fidelity.Project page: https://becauseimbatman0.github.io/VanGogh.

arxiv情報

著者 Zixun Fang,Zhiheng Liu,Kai Zhu,Yu Liu,Ka Leong Cheng,Wei Zhai,Yang Cao,Zheng-Jun Zha
発行日 2025-01-16 12:20:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク