要約
最新のシングルイメージスーパー解像度(SISR)モデルは、訓練されているスケール因子で写真と現実的な結果を提供しますが、その政権をはるかに超えて拡大するように求められた場合は崩壊します。
このスケーラビリティのボトルネックは、SISRをマルチスケールを認識したプロンプトを備えた中間スケールステートの自己格納チェーンに因数分解するモデルに依存しないフレームワークであるチェーンオブZoom(COZ)を使用しています。
CozはバックボーンSRモデルを繰り返し再利用し、条件付きの確率を扱いやすいサブ問題に分解して、追加のトレーニングなしで極端な解決を達成します。
視覚的な手がかりは高倍率で減少するため、ビジョン言語モデル(VLM)によって生成されたマルチスケール認識テキストプロンプトで各ズームステップを増強します。
迅速な抽出器自体は、批評家VLMを使用した一般化された報酬ポリシー最適化(GRPO)を使用して微調整され、テキストガイダンスを人間の好みに合わせて調整します。
実験は、COZに包まれた標準の4x拡散SRモデルが、高い知覚品質と忠実度を備えた256倍の拡大を超えていることを示しています。
プロジェクトページ:https://bryanswkim.github.io/chain-of-zoom/。
要約(オリジナル)
Modern single-image super-resolution (SISR) models deliver photo-realistic results at the scale factors on which they are trained, but collapse when asked to magnify far beyond that regime. We address this scalability bottleneck with Chain-of-Zoom (CoZ), a model-agnostic framework that factorizes SISR into an autoregressive chain of intermediate scale-states with multi-scale-aware prompts. CoZ repeatedly re-uses a backbone SR model, decomposing the conditional probability into tractable sub-problems to achieve extreme resolutions without additional training. Because visual cues diminish at high magnifications, we augment each zoom step with multi-scale-aware text prompts generated by a vision-language model (VLM). The prompt extractor itself is fine-tuned using Generalized Reward Policy Optimization (GRPO) with a critic VLM, aligning text guidance towards human preference. Experiments show that a standard 4x diffusion SR model wrapped in CoZ attains beyond 256x enlargement with high perceptual quality and fidelity. Project Page: https://bryanswkim.github.io/chain-of-zoom/ .
arxiv情報
著者 | Bryan Sangwoo Kim,Jeongsol Kim,Jong Chul Ye |
発行日 | 2025-05-27 16:02:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google