PromptFix: You Prompt and We Fix the Photo

要約

言語モデルを備えた拡散モデルは、画像生成作業において優れた制御性を発揮し、人間の指示に忠実な画像処理を実現します。
しかし、多様な命令追従データが不足しているため、特に低レベルのタスクにおいて、ユーザーがカスタマイズした命令を効果的に認識して実行するモデルの開発が妨げられています。
さらに、拡散プロセスの確率的な性質により、生成された画像を詳細に保存する必要がある画像生成または編集作業に欠陥が生じます。
これらの制限に対処するために、私たちは、拡散モデルが人間の指示に従ってさまざまな画像処理タスクを実行できるようにする包括的なフレームワークである PromptFix を提案します。
まず、低レベルのタスク、画像編集、オブジェクト作成などの包括的な画像処理タスクをカバーする大規模な命令追従データセットを構築します。
次に、ノイズ除去プロセスを明示的に制御し、未処理領域の高周波の詳細を保存する高周波ガイダンス サンプリング方法を提案します。
最後に、視覚言語モデル (VLM) を利用してテキスト プロンプトを強化し、モデルのタスクの一般化を改善する補助プロンプト アダプターを設計します。
実験結果は、PromptFix がさまざまな画像処理タスクにおいて以前の方法よりも優れたパフォーマンスを発揮することを示しています。
私たちが提案したモデルは、これらのベースライン モデルと同等の推論効率も達成し、ブラインド復元および組み合わせタスクにおいて優れたゼロショット機能を示します。
データセットとコードは https://www.yongshengyu.com/PromptFix-Page で入手できます。

要約(オリジナル)

Diffusion models equipped with language models demonstrate excellent controllability in image generation tasks, allowing image processing to adhere to human instructions. However, the lack of diverse instruction-following data hampers the development of models that effectively recognize and execute user-customized instructions, particularly in low-level tasks. Moreover, the stochastic nature of the diffusion process leads to deficiencies in image generation or editing tasks that require the detailed preservation of the generated images. To address these limitations, we propose PromptFix, a comprehensive framework that enables diffusion models to follow human instructions to perform a wide variety of image-processing tasks. First, we construct a large-scale instruction-following dataset that covers comprehensive image-processing tasks, including low-level tasks, image editing, and object creation. Next, we propose a high-frequency guidance sampling method to explicitly control the denoising process and preserve high-frequency details in unprocessed areas. Finally, we design an auxiliary prompting adapter, utilizing Vision-Language Models (VLMs) to enhance text prompts and improve the model’s task generalization. Experimental results show that PromptFix outperforms previous methods in various image-processing tasks. Our proposed model also achieves comparable inference efficiency with these baseline models and exhibits superior zero-shot capabilities in blind restoration and combination tasks. The dataset and code are available at https://www.yongshengyu.com/PromptFix-Page.

arxiv情報

著者 Yongsheng Yu,Ziyun Zeng,Hang Hua,Jianlong Fu,Jiebo Luo
発行日 2024-10-10 16:09:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク