LatentColorization: Latent Diffusion-Based Speaker Video Colorization

要約

現在の研究は主に画像ベースのカラー化に焦点を当てていますが、ビデオベースのカラー化の領域は比較的未開拓のままです。
既存のビデオカラー化技術のほとんどはフレームごとに動作し、連続するフレーム間の時間的一貫性という重要な側面を見落とすことがよくあります。
このアプローチでは、フレーム間で不一致が発生し、フレーム間のちらつきや突然の色の変化などの望ましくない効果が発生する可能性があります。
これらの課題に対処するために、ビデオのカラー化のために特別に設計された微調整された潜在拡散モデルの生成機能を活用し、ビデオのカラー化で時間的一貫性を達成するための新しいソリューションを導入するとともに、他のものと比較して確立された画質メトリクスの強力な改善を実証します。
既存の方法。
さらに、当社は主観的な調査を実施し、ユーザーが既存の最先端技術に対する当社のアプローチを好んだかどうかを調査しました。
私たちのデータセットには、従来のデータセットとテレビ/映画のビデオの組み合わせが含まれています。
つまり、時間的一貫性メカニズムを備えた微調整された潜在拡散ベースのカラー化システムの力を活用することで、時間的不一致の課題に対処し、自動ビデオ カラー化のパフォーマンスを向上させることができます。
結果の短いデモンストレーションは、https://youtu.be/vDbzsZdFuxM で利用できるいくつかのビデオ例で見ることができます。

要約(オリジナル)

While current research predominantly focuses on image-based colorization, the domain of video-based colorization remains relatively unexplored. Most existing video colorization techniques operate on a frame-by-frame basis, often overlooking the critical aspect of temporal coherence between successive frames. This approach can result in inconsistencies across frames, leading to undesirable effects like flickering or abrupt color transitions between frames. To address these challenges, we harness the generative capabilities of a fine-tuned latent diffusion model designed specifically for video colorization, introducing a novel solution for achieving temporal consistency in video colorization, as well as demonstrating strong improvements on established image quality metrics compared to other existing methods. Furthermore, we perform a subjective study, where users preferred our approach to the existing state of the art. Our dataset encompasses a combination of conventional datasets and videos from television/movies. In short, by leveraging the power of a fine-tuned latent diffusion-based colorization system with a temporal consistency mechanism, we can improve the performance of automatic video colorization by addressing the challenges of temporal inconsistency. A short demonstration of our results can be seen in some example videos available at https://youtu.be/vDbzsZdFuxM.

arxiv情報

著者 Rory Ward,Dan Bigioi,Shubhajit Basak,John G. Breslin,Peter Corcoran
発行日 2024-05-09 12:06:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク