要約
人間の視覚的想像力は通常、類推や大まかなスケッチから始まります。
たとえば、建物の前でギターを弾いている女の子の画像があれば、エジプトのピラミッドの前でアイアンマンがギターを弾いている様子を類似的に想像することができます。
それにもかかわらず、視覚的な状態は、テキスト プロンプトによって示される想像上の結果と正確に一致していない可能性があり、既存のレイアウト制御可能なテキストから画像への (T2I) 生成モデルは、明らかなアーティファクトを伴う劣化した生成結果を生成する傾向があります。
この問題に対処するために、テキスト プロンプトに適応するために大まかな視覚条件を変更するように設計された、SmartControl と呼ばれる新しい T2I 生成方法を紹介します。
SmartControl の重要なアイデアは、テキスト プロンプトと競合する領域の視覚的条件を緩和することです。
具体的には、制御スケール予測器 (CSP) は、競合領域を特定してローカル制御スケールを予測するように設計されており、テキスト プロンプトと大まかな視覚条件を含むデータセットが CSP のトレーニング用に構築されます。
トレーニング サンプルの数が限られている (例: 1,000 ~ 2,000) 場合でも、SmartControl は目に見えないオブジェクトに対して適切に一般化できることは注目に値します。
4 つの典型的な視覚条件タイプに関する広範な実験により、最先端技術に対する SmartControl の有効性が明確に示されています。
ソース コード、事前トレーニングされたモデル、およびデータセットは、https://github.com/liuxiaoyu1104/SmartControl で入手できます。
要約(オリジナル)
Human visual imagination usually begins with analogies or rough sketches. For example, given an image with a girl playing guitar before a building, one may analogously imagine how it seems like if Iron Man playing guitar before Pyramid in Egypt. Nonetheless, visual condition may not be precisely aligned with the imaginary result indicated by text prompt, and existing layout-controllable text-to-image (T2I) generation models is prone to producing degraded generated results with obvious artifacts. To address this issue, we present a novel T2I generation method dubbed SmartControl, which is designed to modify the rough visual conditions for adapting to text prompt. The key idea of our SmartControl is to relax the visual condition on the areas that are conflicted with text prompts. In specific, a Control Scale Predictor (CSP) is designed to identify the conflict regions and predict the local control scales, while a dataset with text prompts and rough visual conditions is constructed for training CSP. It is worth noting that, even with a limited number (e.g., 1,000~2,000) of training samples, our SmartControl can generalize well to unseen objects. Extensive experiments on four typical visual condition types clearly show the efficacy of our SmartControl against state-of-the-arts. Source code, pre-trained models, and datasets are available at https://github.com/liuxiaoyu1104/SmartControl.
arxiv情報
著者 | Xiaoyu Liu,Yuxiang Wei,Ming Liu,Xianhui Lin,Peiran Ren,Xuansong Xie,Wangmeng Zuo |
発行日 | 2024-04-09 16:53:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google