EAM: Enhancing Anything with Diffusion Transformers for Blind Super-Resolution

要約

事前に訓練されたテキストからイメージ(T2I)拡散モデルを利用して、ブラインドスーパー解像度(BSR)を導くことが、この分野で主要なアプローチになりました。
T2Iモデルは伝統的にU-Netアーキテクチャに依存してきましたが、最近の進歩により、拡散トランス(DIT)がこのドメインで大幅に高いパフォーマンスを達成することが実証されています。
この作業では、DITを活用して以前のU-NETベースのアプローチを上回る新しいBSRメソッドであるEnhing Anything Model(EAM)を紹介します。
画像の復元を強化するためにDITを効果的に導く新しいブロック$ \ psi $ -ditを導入します。
このブロックは、分離可能なフロー噴射制御として低解像度の潜在性を採用し、事前に訓練されたDITに埋め込まれた事前知識を効果的に活用するトリプルフローアーキテクチャを形成します。
T2Iモデルの以前のガイダンス機能を完全に活用し、BSRでの一般化を強化するために、トレーニングコストも削減するプログレッシブマスクモデリング戦略を導入します。
さらに、コンテキスト学習フレームワークで堅牢なマルチモーダルモデルを採用するサブジェクト認識の迅速な生成戦略を提案します。
この戦略は、主要な画像領域を自動的に識別し、詳細な説明を提供し、T2I拡散前の利用を最適化します。
私たちの実験は、EAMが複数のデータセットで最新の結果を達成し、定量的メトリックと視覚品質の両方で既存の方法を上回ることを示しています。

要約(オリジナル)

Utilizing pre-trained Text-to-Image (T2I) diffusion models to guide Blind Super-Resolution (BSR) has become a predominant approach in the field. While T2I models have traditionally relied on U-Net architectures, recent advancements have demonstrated that Diffusion Transformers (DiT) achieve significantly higher performance in this domain. In this work, we introduce Enhancing Anything Model (EAM), a novel BSR method that leverages DiT and outperforms previous U-Net-based approaches. We introduce a novel block, $\Psi$-DiT, which effectively guides the DiT to enhance image restoration. This block employs a low-resolution latent as a separable flow injection control, forming a triple-flow architecture that effectively leverages the prior knowledge embedded in the pre-trained DiT. To fully exploit the prior guidance capabilities of T2I models and enhance their generalization in BSR, we introduce a progressive Masked Image Modeling strategy, which also reduces training costs. Additionally, we propose a subject-aware prompt generation strategy that employs a robust multi-modal model in an in-context learning framework. This strategy automatically identifies key image areas, provides detailed descriptions, and optimizes the utilization of T2I diffusion priors. Our experiments demonstrate that EAM achieves state-of-the-art results across multiple datasets, outperforming existing methods in both quantitative metrics and visual quality.

arxiv情報

著者 Haizhen Xie,Kunpeng Du,Qiangyu Yan,Sen Lu,Jianhong Han,Hanting Chen,Hailin Hu,Jie Hu
発行日 2025-05-08 13:03:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク