Video Colorization with Pre-trained Text-to-Image Diffusion Models

要約

動画像の色付けは、グレースケールのフレームに対して、もっともらしく、時間的に一貫性のある色を推測する、難しいタスクである。本論文では、ColorDiffuserを紹介する。ColorDiffuserは、事前に訓練されたテキストから画像への潜在拡散モデルを動画の色付けに適応させたものである。提案するアダプタベースのアプローチにより、我々は、入力されたグレースケール動画フレームとオプションのテキスト記述を受け付けるために、事前に訓練されたテキストから画像へのモデルを再作成し、動画の色付けを行う。フレーム間の時間的な一貫性を高め、色付けの鮮やかさを維持するために、我々は2つの新しい技術を提案する:色伝播アテンションと交互サンプリング戦略。カラープロパゲーションアテンションは、モデルが参照潜像フレームに基づいて色付けの決定を改良することを可能にし、オルタネートサンプリング戦略は、生成拡散サンプリングステップにおいて、次と前の隣接潜像フレームを参照として交互に使用することによって、時空間依存性を捕らえる。これにより、隣接するビデオフレーム間の双方向の色情報伝播が促進され、フレーム間の色の一貫性が改善される。ベンチマークデータセットを用いた広範な実験を行い、その結果、提案するフレームワークの有効性が実証された。その結果、ColorDiffuserはビデオカラー化において、色の忠実度、時間的整合性、視覚的品質の面で既存の手法を凌駕する、最先端の性能を達成することが示された。

要約(オリジナル)

Video colorization is a challenging task that involves inferring plausible and temporally consistent colors for grayscale frames. In this paper, we present ColorDiffuser, an adaptation of a pre-trained text-to-image latent diffusion model for video colorization. With the proposed adapter-based approach, we repropose the pre-trained text-to-image model to accept input grayscale video frames, with the optional text description, for video colorization. To enhance the temporal coherence and maintain the vividness of colorization across frames, we propose two novel techniques: the Color Propagation Attention and Alternated Sampling Strategy. Color Propagation Attention enables the model to refine its colorization decision based on a reference latent frame, while Alternated Sampling Strategy captures spatiotemporal dependencies by using the next and previous adjacent latent frames alternatively as reference during the generative diffusion sampling steps. This encourages bidirectional color information propagation between adjacent video frames, leading to improved color consistency across frames. We conduct extensive experiments on benchmark datasets, and the results demonstrate the effectiveness of our proposed framework. The evaluations show that ColorDiffuser achieves state-of-the-art performance in video colorization, surpassing existing methods in terms of color fidelity, temporal consistency, and visual quality.

arxiv情報

著者 Hanyuan Liu,Minshan Xie,Jinbo Xing,Chengze Li,Tien-Tsin Wong
発行日 2023-06-02 17:58:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク