Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization

要約

拡散モデルは、さまざまな画像生成、編集、強化、翻訳タスクにおいて優れたパフォーマンスを実証しています。
特に、事前トレーニングされたテキストから画像への安定した拡散モデルは、強力な生成事前分布を伴う、困難なリアリスティック画像超解像度 (Real-ISR) および画像の様式化の問題に対する潜在的な解決策を提供します。
ただし、この方針に沿った既存の方法では、忠実なピクセル単位の画像構造を維持できないことがよくあります。
VAE のエンコーダーとデコーダー間の追加のスキップ接続を使用して詳細を再現する場合、画像空間での追加のトレーニングが必要となり、画像のスタイル化などの潜在空間でのタスクに適用が制限されます。
この研究では、堅牢な Real-ISR とパーソナライズされた画像の様式化を実現するピクセル認識安定拡散 (PASD) ネットワークを提案します。
具体的には、ピクセル認識クロスアテンション モジュールが導入され、拡散モデルが画像の局所構造をピクセル単位で認識できるようにする一方、劣化除去モジュールを使用して劣化に影響されない特徴を抽出し、画像の高レベル情報とともに拡散プロセスをガイドします。
画像復元結果をさらに改善するために、調整可能なノイズ スケジュールが導入されています。
基本拡散モデルを様式化されたモデルに置き換えるだけで、PASD はペアごとのトレーニング データを収集することなく、多様な様式化された画像を生成できます。また、基本モデルを美的なモデルに置き換えることで、PASD は古い写真を生き返らせることができます。
さまざまな画像強調および様式化タスクにおける広範な実験により、私たちが提案する PASD アプローチの有効性が実証されています。
ソース コードは \url{https://github.com/yangxy/PASD/} で入手できます。

要約(オリジナル)

Diffusion models have demonstrated impressive performance in various image generation, editing, enhancement and translation tasks. In particular, the pre-trained text-to-image stable diffusion models provide a potential solution to the challenging realistic image super-resolution (Real-ISR) and image stylization problems with their strong generative priors. However, the existing methods along this line often fail to keep faithful pixel-wise image structures. If extra skip connections between the encoder and the decoder of a VAE are used to reproduce details, additional training in image space will be required, limiting the application to tasks in latent space such as image stylization. In this work, we propose a pixel-aware stable diffusion (PASD) network to achieve robust Real-ISR and personalized image stylization. Specifically, a pixel-aware cross attention module is introduced to enable diffusion models perceiving image local structures in pixel-wise level, while a degradation removal module is used to extract degradation insensitive features to guide the diffusion process together with image high level information. An adjustable noise schedule is introduced to further improve the image restoration results. By simply replacing the base diffusion model with a stylized one, PASD can generate diverse stylized images without collecting pairwise training data, and by shifting the base model with an aesthetic one, PASD can bring old photos back to life. Extensive experiments in a variety of image enhancement and stylization tasks demonstrate the effectiveness of our proposed PASD approach. Our source codes are available at \url{https://github.com/yangxy/PASD/}.

arxiv情報

著者 Tao Yang,Rongyuan Wu,Peiran Ren,Xuansong Xie,Lei Zhang
発行日 2024-07-09 14:18:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク