SVFR: A Unified Framework for Generalized Video Face Restoration

要約

顔復元(Face Restoration:FR)は、劣化した入力から高品質な肖像画を復元することに焦点を当てた、画像およびビデオ処理における重要な分野である。画像FRの進歩にもかかわらず、ビデオFRは比較的未開拓のままである。その主な理由は、時間的一貫性、モーションアーティファクト、および高品質のビデオデータの限られた利用可能性に関する課題である。さらに、従来の顔復元では、解像度の向上が優先され、顔のカラー化やインペインティングなどの関連タスクはあまり考慮されていない。本論文では、一般化ビデオ顔復元(GVFR)タスクのための新しいアプローチを提案する。これは、ビデオBFR、インペインティング、および色付けタスクを統合するものであり、経験的に互いに有益であることを示している。安定動画顔復元(SVFR)と呼ばれる、安定動画拡散(SVD)の生成と動きの事前分布を活用し、統一された顔復元フレームワークを通してタスク固有の情報を取り込む、統一されたフレームワークを提示する。学習可能なタスク埋め込みを導入し、タスク識別を強化する。一方、異なるサブタスク間で共有される特徴表現の学習を促進するために、新しい統合潜在正則化(Unified Latent Regularization: ULR)が採用される。さらに、復元品質と時間的安定性を高めるために、学習と推論の両方に用いられる補助的な戦略として、顔事前学習と自己参照洗練を導入する。提案するフレームワークは、これらのタスクの相補的な強みを効果的に組み合わせ、時間的一貫性を高め、優れた復元品質を達成する。本研究は、ビデオ顔復元における最先端技術を進歩させ、一般化されたビデオ顔復元の新しいパラダイムを確立する。コードとビデオデモはhttps://github.com/wangzhiyaoo/SVFR.git。

要約(オリジナル)

Face Restoration (FR) is a crucial area within image and video processing, focusing on reconstructing high-quality portraits from degraded inputs. Despite advancements in image FR, video FR remains relatively under-explored, primarily due to challenges related to temporal consistency, motion artifacts, and the limited availability of high-quality video data. Moreover, traditional face restoration typically prioritizes enhancing resolution and may not give as much consideration to related tasks such as facial colorization and inpainting. In this paper, we propose a novel approach for the Generalized Video Face Restoration (GVFR) task, which integrates video BFR, inpainting, and colorization tasks that we empirically show to benefit each other. We present a unified framework, termed as stable video face restoration (SVFR), which leverages the generative and motion priors of Stable Video Diffusion (SVD) and incorporates task-specific information through a unified face restoration framework. A learnable task embedding is introduced to enhance task identification. Meanwhile, a novel Unified Latent Regularization (ULR) is employed to encourage the shared feature representation learning among different subtasks. To further enhance the restoration quality and temporal stability, we introduce the facial prior learning and the self-referred refinement as auxiliary strategies used for both training and inference. The proposed framework effectively combines the complementary strengths of these tasks, enhancing temporal coherence and achieving superior restoration quality. This work advances the state-of-the-art in video FR and establishes a new paradigm for generalized video face restoration. Code and video demo are available at https://github.com/wangzhiyaoo/SVFR.git.

arxiv情報

著者 Zhiyao Wang,Xu Chen,Chengming Xu,Junwei Zhu,Xiaobin Hu,Jiangning Zhang,Chengjie Wang,Yuqi Liu,Yiyi Zhou,Rongrong Ji
発行日 2025-01-03 12:26:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク