要約
安定拡散に基づくブラインド超解像法は、低解像度入力から複雑なディテールを持つ鮮明な高解像度画像を再構成する上で、圧倒的な生成能力を示す。しかし、その実用性は、数千から数百のサンプリングステップを必要とすることに起因する効率の悪さによって、しばしば妨げられている。効率的なテキストから画像へのアプローチである敵対的拡散蒸留(ADD)に触発され、蒸留とControlNetの両方のアイデアを取り入れることで、この問題に対処するためにAddSRを設計する。具体的には、まず予測に基づく自己洗練戦略を提案し、生徒モデル出力に高頻度情報をわずかな追加時間コストで提供する。さらに、LR画像ではなくHR画像を教師モデルの制御に用いることで、訓練プロセスを改良し、蒸留により頑健な制約を与える。第二に、ADDによってもたらされる知覚と歪みの不均衡問題に対処するために、タイムステップ適応損失を導入する。広範な実験により、我々のAddSRは、これまでのSDベースの最先端モデルよりも高速(例えばSeeSRの7倍高速)を達成しながら、より優れた復元結果を生成することが実証された。
要約(オリジナル)
Blind super-resolution methods based on stable diffusion showcase formidable generative capabilities in reconstructing clear high-resolution images with intricate details from low-resolution inputs. However, their practical applicability is often hampered by poor efficiency, stemming from the requirement of thousands or hundreds of sampling steps. Inspired by the efficient text-to-image approach adversarial diffusion distillation (ADD), we design AddSR to address this issue by incorporating the ideas of both distillation and ControlNet. Specifically, we first propose a prediction-based self-refinement strategy to provide high-frequency information in the student model output with marginal additional time cost. Furthermore, we refine the training process by employing HR images, rather than LR images, to regulate the teacher model, providing a more robust constraint for distillation. Second, we introduce a timestep-adapting loss to address the perception-distortion imbalance problem introduced by ADD. Extensive experiments demonstrate our AddSR generates better restoration results, while achieving faster speed than previous SD-based state-of-the-art models (e.g., 7x faster than SeeSR).
arxiv情報
| 著者 | Rui Xie,Ying Tai,Kai Zhang,Zhenyu Zhang,Jun Zhou,Jian Yang |
| 発行日 | 2024-04-03 16:46:27+00:00 |
| arxivサイト | arxiv_id(pdf) |