LeftRefill: Filling Right Canvas based on Left Reference through Generalized Text-to-Image Diffusion Model

要約

本論文では、参照ガイド付き画像合成のために、大規模なText-to-Image(T2I)拡散モデルを効率的に利用する革新的なアプローチであるLeftRefillを紹介する。その名の通り、LeftRefillは参照画像とターゲット画像を水平方向につなぎ合わせて入力とする。参照画像は左側を占め、ターゲットキャンバスは右側に配置される。そしてLeftRefillは、左側の参照画像と特定のタスク指示に基づいて、右側のターゲットキャンバスを描画する。このようなタスクの定式化は、人間の絵描きの動作に似た、文脈に応じた塗りつぶし(contextual inpainting)と共通点がある。この新しい定式化は、他の画像エンコーダやアダプタを使わずに、参照とターゲットの間の構造的およびテクスチャ的な対応を効率的に学習する。我々は、T2Iモデルのクロスアテンションモジュールを通してタスクとビュー情報を注入し、さらに再配置された自己アテンションモジュールを通してマルチビュー参照能力を示す。これらにより、LeftRefillはテスト時の微調整やモデルの修正を必要とせず、一般化されたモデルとして一貫した生成を行うことができる。このように、LeftRefillは、参照誘導型合成を扱うためのシンプルかつ統一的なフレームワークと見なすことができる。その例として、我々はLeftRefillを活用して、2つの異なる課題である参照ガイド付きインペインティングと、事前に訓練されたStableDiffusionに基づく新しいビュー合成に取り組んでいる。コードとモデルはhttps://github.com/ewrfcas/LeftRefill。

要約(オリジナル)

This paper introduces LeftRefill, an innovative approach to efficiently harness large Text-to-Image (T2I) diffusion models for reference-guided image synthesis. As the name implies, LeftRefill horizontally stitches reference and target views together as a whole input. The reference image occupies the left side, while the target canvas is positioned on the right. Then, LeftRefill paints the right-side target canvas based on the left-side reference and specific task instructions. Such a task formulation shares some similarities with contextual inpainting, akin to the actions of a human painter. This novel formulation efficiently learns both structural and textured correspondence between reference and target without other image encoders or adapters. We inject task and view information through cross-attention modules in T2I models, and further exhibit multi-view reference ability via the re-arranged self-attention modules. These enable LeftRefill to perform consistent generation as a generalized model without requiring test-time fine-tuning or model modifications. Thus, LeftRefill can be seen as a simple yet unified framework to address reference-guided synthesis. As an exemplar, we leverage LeftRefill to address two different challenges: reference-guided inpainting and novel view synthesis, based on the pre-trained StableDiffusion. Codes and models are released at https://github.com/ewrfcas/LeftRefill.

arxiv情報

著者 Chenjie Cao,Yunuo Cai,Qiaole Dong,Yikai Wang,Yanwei Fu
発行日 2024-03-02 12:03:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク