要約
最近のテキストから画像への生成では、マスク、バウンディングボックス、キーポイントなど、さまざまな形式の空間条件が好まれている。しかし、先行技術の大半は、元のモデルを微調整するために形式固有の注釈を必要とするため、テスト時の汎化性が低い。一方、既存の訓練不要の手法は、簡略化されたプロンプトと空間条件でのみうまく機能する。本研究では、自然なテキストプロンプトと複雑な条件を対象とした、新規かつ汎用的なテスト時間制御可能な生成手法を提案する。具体的には、空間的条件を意味的条件と幾何学的条件に分離し、画像生成過程においてそれらの整合性を個別に強制する。前者については、意味的条件とテキストプロンプトとの間のギャップ、および、そのような条件と拡散モデルからの注意マップとの間のギャップを埋めることを目標とする。これを達成するために、まず意味的条件と一致するプロンプトを完成させ、次にこの条件と一致する単語空間における距離だけでなく、注意マップにおける統計量を測定することにより、注意散漫なプロンプト単語の悪影響を取り除くことを提案する。さらに、複雑な幾何学的条件に対処するために、幾何学的変換モジュールを導入し、関心領域を注意マップにおいて識別し、さらに幾何学的条件と照合してカテゴリー別潜在量を変換するために使用する。さらに重要な点として、ROIにおけるレイテントの影響を明示的に除去し、生成画像のアーチファクトを低減するために、拡散に基づくレイテントリフィル法を提案する。Coco-stuffデータセットを用いた実験では、レイアウト整合性評価指標において、SOTA訓練なし手法と比較して30$%$の相対的な向上を示した。
要約(オリジナル)
Recent text-to-image generation favors various forms of spatial conditions, e.g., masks, bounding boxes, and key points. However, the majority of the prior art requires form-specific annotations to fine-tune the original model, leading to poor test-time generalizability. Meanwhile, existing training-free methods work well only with simplified prompts and spatial conditions. In this work, we propose a novel yet generic test-time controllable generation method that aims at natural text prompts and complex conditions. Specifically, we decouple spatial conditions into semantic and geometric conditions and then enforce their consistency during the image-generation process individually. As for the former, we target bridging the gap between the semantic condition and text prompts, as well as the gap between such condition and the attention map from diffusion models. To achieve this, we propose to first complete the prompt w.r.t. semantic condition, and then remove the negative impact of distracting prompt words by measuring their statistics in attention maps as well as distances in word space w.r.t. this condition. To further cope with the complex geometric conditions, we introduce a geometric transform module, in which Region-of-Interests will be identified in attention maps and further used to translate category-wise latents w.r.t. geometric condition. More importantly, we propose a diffusion-based latents-refill method to explicitly remove the impact of latents at the RoI, reducing the artifacts on generated images. Experiments on Coco-stuff dataset showcase 30$\%$ relative boost compared to SOTA training-free methods on layout consistency evaluation metrics.
arxiv情報
著者 | Z. Zhang,B. Liu,J. Bao,L. Chen,S. Zhu,J. Yu |
発行日 | 2025-01-02 17:26:25+00:00 |
arxivサイト | arxiv_id(pdf) |