ControlCol: Controllability in Automatic Speaker Video Colorization

要約

白黒のスピーカービデオに自動的に色を追加することは、非常に望ましい技術です。
これは芸術的なプロセスであり、最良の結果を得るには人間との対話性が必要です。
既存の自動ビデオ色付けシステムの多くは、ユーザーが色付けプロセスをガイドする機会をほとんど提供しません。
この研究では、最先端の技術と比較して高い色付け品質を維持しながら、ユーザーに制御性を提供する新しい自動スピーカービデオ色付けシステムを紹介します。
このシステムを ControlCol と名付けます。
ControlCol は、PSNR、SSIM、FID、および FVD がメトリクスとして使用される場合、Grid および Lombard Grid データセット上で以前の最先端の DeOldify よりも 3.5% 優れたパフォーマンスを発揮します。
この結果は人間による評価でも裏付けられており、直接比較すると、90% の確率で ControlCol が DeOldify よりも好まれます。
サンプルビデオは補足資料でご覧いただけます。

要約(オリジナル)

Adding color to black-and-white speaker videos automatically is a highly desirable technique. It is an artistic process that requires interactivity with humans for the best results. Many existing automatic video colorization systems provide little opportunity for the user to guide the colorization process. In this work, we introduce a novel automatic speaker video colorization system which provides controllability to the user while also maintaining high colorization quality relative to state-of-the-art techniques. We name this system ControlCol. ControlCol performs 3.5% better than the previous state-of-the-art DeOldify on the Grid and Lombard Grid datasets when PSNR, SSIM, FID and FVD are used as metrics. This result is also supported by our human evaluation, where in a head-to-head comparison, ControlCol is preferred 90% of the time to DeOldify. Example videos can be seen in the supplementary material.

arxiv情報

著者 Rory Ward,John G. Breslin,Peter Corcoran
発行日 2024-08-21 15:35:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク