要約
Text-to-Image (T2I) 生成モデルの最近の進歩により、一貫したテキスト プロンプトに基づいて忠実度の高い画像を生成するという素晴らしい結果が得られました。
しかし、空間理解と視覚的コンテキストを必要とする、より多様な参照ベースの画像操作タスクに対するこれらのモデルの可能性を探ることへの関心が高まっています。
これまでのアプローチでは、追加の制御モジュールを組み込むか、収束するまでタスクごとに生成モデルを微調整することでこれを実現していました。
本稿では、別の視点を提案します。
現在の大規模な T2I 生成モデルは、これらのタスクを実行する機能をすでに備えていますが、標準の生成プロセス内では完全にはアクティブ化されていないと推測されます。
これらの機能を活用するために、統合されたプロンプトガイド付きインコンテキスト修復 (PGIC) フレームワークを導入します。これは、大規模な T2I モデルを活用して、参照ガイド付きの画像操作を再定式化し、解決します。
PGIC フレームワークでは、リファレンスとマスクされたターゲットが生成モデルへの新しい入力として結合され、最終結果を生成する際にマスクされた領域を埋めることが可能になります。
さらに、T2I モデルのセルフ アテンション モジュールが、空間相関を確立し、困難な参照ガイドに基づく操作に効率的に対処するのに適していることを示します。
これらの大規模な T2I モデルは、最小限のトレーニング コストで、またはフリーズしたバックボーンでも、タスク固有のプロンプトによって効果的に駆動できます。
私たちは、参照ガイド付き画像インペインティング、忠実なインペインティング、アウトペインティング、ローカル超解像度、新しいビュー合成など、さまざまなタスクにわたって提案された PGIC フレームワークの有効性を総合的に評価します。
私たちの結果は、PGIC が他の微調整ベースのアプローチと比較して、より少ない計算量でありながら、大幅に優れたパフォーマンスを達成することを示しています。
要約(オリジナル)
Recent advancements in Text-to-Image (T2I) generative models have yielded impressive results in generating high-fidelity images based on consistent text prompts. However, there is a growing interest in exploring the potential of these models for more diverse reference-based image manipulation tasks that require spatial understanding and visual context. Previous approaches have achieved this by incorporating additional control modules or fine-tuning the generative models specifically for each task until convergence. In this paper, we propose a different perspective. We conjecture that current large-scale T2I generative models already possess the capability to perform these tasks but are not fully activated within the standard generation process. To unlock these capabilities, we introduce a unified Prompt-Guided In-Context inpainting (PGIC) framework, which leverages large-scale T2I models to re-formulate and solve reference-guided image manipulations. In the PGIC framework, the reference and masked target are stitched together as a new input for the generative models, enabling the filling of masked regions as producing final results. Furthermore, we demonstrate that the self-attention modules in T2I models are well-suited for establishing spatial correlations and efficiently addressing challenging reference-guided manipulations. These large T2I models can be effectively driven by task-specific prompts with minimal training cost or even with frozen backbones. We synthetically evaluate the effectiveness of the proposed PGIC framework across various tasks, including reference-guided image inpainting, faithful inpainting, outpainting, local super-resolution, and novel view synthesis. Our results show that PGIC achieves significantly better performance while requiring less computation compared to other fine-tuning based approaches.
arxiv情報
著者 | Chenjie Cao,Qiaole Dong,Yikai Wang,Yunuo Cai,Yanwei Fu |
発行日 | 2023-05-19 10:29:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google