Acquire and then Adapt: Squeezing out Text-to-Image Model for Image Restoration

要約

最近、事前に訓練されたテキストからイメージ(T2I)モデルが、その強力な生成事前のために、実際の画像修復に広く採用されています。
ただし、画像修復のためにこれらの大規模なモデルを制御するには、通常、トレーニングのための多数の高品質の画像と計り知れない計算リソースが必要です。
この論文では、よく訓練された大型T2Iモデル(つまり、フラックス)が、実際の分布に沿ったさまざまな高品質の画像を作成できることがわかり、上記の問題を軽減するためのトレーニングサンプルの無制限の供給を提供します。
具体的には、画像修復のためのトレーニングデータ構築パイプライン、すなわち、無条件の画像生成、画像選択、劣化した画像シミュレーションを含むFluxGenを提案しました。
スクイーズアンドエクスケーション層を備えた新しい光加重アダプター(Fluxir)は、大きな拡散トランス(DIT)ベースのT2Iモデルを制御するために慎重に設計されているため、合理的な詳細を復元できます。
実験は、提案された方法により、フラックスモデルが現実世界の画像修復タスクに効果的に適応することを可能にし、現在のアプローチと比較してトレーニングコストの約8.5%で、合成および実世界の劣化データセットの両方で優れたスコアと視覚品質を達成することができることを示しています。

要約(オリジナル)

Recently, pre-trained text-to-image (T2I) models have been extensively adopted for real-world image restoration because of their powerful generative prior. However, controlling these large models for image restoration usually requires a large number of high-quality images and immense computational resources for training, which is costly and not privacy-friendly. In this paper, we find that the well-trained large T2I model (i.e., Flux) is able to produce a variety of high-quality images aligned with real-world distributions, offering an unlimited supply of training samples to mitigate the above issue. Specifically, we proposed a training data construction pipeline for image restoration, namely FluxGen, which includes unconditional image generation, image selection, and degraded image simulation. A novel light-weighted adapter (FluxIR) with squeeze-and-excitation layers is also carefully designed to control the large Diffusion Transformer (DiT)-based T2I model so that reasonable details can be restored. Experiments demonstrate that our proposed method enables the Flux model to adapt effectively to real-world image restoration tasks, achieving superior scores and visual quality on both synthetic and real-world degradation datasets – at only about 8.5\% of the training cost compared to current approaches.

arxiv情報

著者 Junyuan Deng,Xinyi Wu,Yongxing Yang,Congchao Zhu,Song Wang,Zhenyao Wu
発行日 2025-04-21 15:05:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク