DiffIR2VR-Zero: Zero-Shot Video Restoration with Diffusion-based Image Restoration Models

要約

本稿では、事前に訓練された画像復元拡散モデルを用いたゼロショット映像復元手法を紹介する。従来の映像復元手法は、しばしば異なる設定に対して再トレーニングが必要であり、様々な劣化タイプやデータセットに対する限定的な一般化に苦慮している。我々の手法では、キーフレームとローカルフレームに対して階層的なトークン結合戦略を用い、オプティカルフローと特徴に基づく最近傍マッチング(潜在的結合)を融合させたハイブリッド対応メカニズムを組み合わせる。我々は、本手法がゼロショットビデオ復元においてトップクラスの性能を達成するだけでなく、多様なデータセットと極端な劣化(8$times$超解像と高標準偏差ビデオノイズ除去)に対する汎化において、学習済みモデルを大幅に上回ることを示す。我々は、様々な困難なデータセットにおける定量的指標と視覚的比較による証拠を示す。さらに、我々の技術は、どのような2D復元拡散モデルでも動作し、大規模な再トレーニングを行うことなく、ビデオエンハンスメントタスクのための汎用的で強力なツールを提供する。この研究は、より効率的で広く適用可能な映像復元技術につながり、高品質な映像出力を必要とする分野の進歩をサポートします。ビデオの結果とソースコードについては、プロジェクトページ(https://jimmycv07.github.io/DiffIR2VR_web/)をご覧ください。

要約(オリジナル)

This paper introduces a method for zero-shot video restoration using pre-trained image restoration diffusion models. Traditional video restoration methods often need retraining for different settings and struggle with limited generalization across various degradation types and datasets. Our approach uses a hierarchical token merging strategy for keyframes and local frames, combined with a hybrid correspondence mechanism that blends optical flow and feature-based nearest neighbor matching (latent merging). We show that our method not only achieves top performance in zero-shot video restoration but also significantly surpasses trained models in generalization across diverse datasets and extreme degradations (8$\times$ super-resolution and high-standard deviation video denoising). We present evidence through quantitative metrics and visual comparisons on various challenging datasets. Additionally, our technique works with any 2D restoration diffusion model, offering a versatile and powerful tool for video enhancement tasks without extensive retraining. This research leads to more efficient and widely applicable video restoration technologies, supporting advancements in fields that require high-quality video output. See our project page for video results and source code at https://jimmycv07.github.io/DiffIR2VR_web/.

arxiv情報

著者 Chang-Han Yeh,Chin-Yang Lin,Zhixiang Wang,Chi-Wei Hsiao,Ting-Hsuan Chen,Hau-Shiang Shiu,Yu-Lun Liu
発行日 2024-10-04 14:37:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク