ControlSR: Taming Diffusion Models for Consistent Real-World Image Super Resolution

要約

ControlSRは、一貫した実世界の画像超解像度(Real-ISR)の拡散モデルを飼いならすことができる新しい方法を提示します。
以前のREAL-ISRモデルは、テキストから画像へのより生成的な事前拡散モデルをアクティブにして、出力の高解像度(HR)画像をより良く見えるようにする方法に主に焦点を当てています。
ただし、これらの方法は生成プライアーに依存しすぎているため、出力画像の内容は入力LRの内容と矛盾することがよくあります。
上記の問題を軽減するために、この作業では、LR情報を効果的に利用して潜在空間のControlNetからコントロール信号に強い制約を課すことにより、拡散モデルを飼いならします。
私たちの方法は、より高品質の制御信号を生成できることを示しています。これにより、超解像の結果がLRイメージとより一致し、より明確な視覚的結果につながることがわかります。
さらに、LR情報を使用して潜在空間に制約を課す推論戦略も提案し、忠実度と生成能力の同時改善を可能にします。
実験は、我々のモデルがいくつかのテストセットで複数のメトリックでより良いパフォーマンスを達成し、既存の方法よりもLR画像でより一貫したSR結果を生成できることを示しています。
私たちのコードは、https://github.com/hvision-nku/controlsrで入手できます。

要約(オリジナル)

We present ControlSR, a new method that can tame Diffusion Models for consistent real-world image super-resolution (Real-ISR). Previous Real-ISR models mostly focus on how to activate more generative priors of text-to-image diffusion models to make the output high-resolution (HR) images look better. However, since these methods rely too much on the generative priors, the content of the output images is often inconsistent with the input LR ones. To mitigate the above issue, in this work, we tame Diffusion Models by effectively utilizing LR information to impose stronger constraints on the control signals from ControlNet in the latent space. We show that our method can produce higher-quality control signals, which enables the super-resolution results to be more consistent with the LR image and leads to clearer visual results. In addition, we also propose an inference strategy that imposes constraints in the latent space using LR information, allowing for the simultaneous improvement of fidelity and generative ability. Experiments demonstrate that our model can achieve better performance across multiple metrics on several test sets and generate more consistent SR results with LR images than existing methods. Our code is available at https://github.com/HVision-NKU/ControlSR.

arxiv情報

著者 Yuhao Wan,Peng-Tao Jiang,Qibin Hou,Hao Zhang,Jinwei Chen,Ming-Ming Cheng,Bo Li
発行日 2025-04-01 08:31:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク