Semantic Guidance Tuning for Text-To-Image Diffusion Models

要約

Text-to-Image (T2I) 拡散モデルの最近の進歩により、ゼロショット汎化機能を備えた高品質の画像の生成において目覚ましい成功が実証されました。
しかし、現在のモデルはプロンプトセマンティクスを厳密に遵守するのに苦労しており、特定の属性を誤って伝えたり見落としたりすることがよくあります。
これに対処するために、推論中に拡散モデルの誘導方向を調整する、トレーニング不要のシンプルなアプローチを提案します。
まず、プロンプト セマンティクスを一連の概念に分解し、各概念に関連するガイダンスの軌跡を監視します。
私たちの重要な観察は、プロンプトセマンティクスに対するモデルの遵守の逸脱が、これらの概念の 1 つ以上からのガイダンスの逸脱と高度に相関しているということです。
この観察に基づいて、モデルが分岐する概念に向けてガイダンスの方向を導く手法を考案します。
広範な実験により、私たちの方法がプロンプトに応じて拡散モデルによって生成された画像の意味論的な位置合わせを改善することが検証されました。
プロジェクトページはhttps://korguy.github.io/から入手できます。

要約(オリジナル)

Recent advancements in Text-to-Image (T2I) diffusion models have demonstrated impressive success in generating high-quality images with zero-shot generalization capabilities. Yet, current models struggle to closely adhere to prompt semantics, often misrepresenting or overlooking specific attributes. To address this, we propose a simple, training-free approach that modulates the guidance direction of diffusion models during inference. We first decompose the prompt semantics into a set of concepts, and monitor the guidance trajectory in relation to each concept. Our key observation is that deviations in model’s adherence to prompt semantics are highly correlated with divergence of the guidance from one or more of these concepts. Based on this observation, we devise a technique to steer the guidance direction towards any concept from which the model diverges. Extensive experimentation validates that our method improves the semantic alignment of images generated by diffusion models in response to prompts. Project page is available at: https://korguy.github.io/

arxiv情報

著者 Hyun Kang,Dohae Lee,Myungjin Shin,In-Kwon Lee
発行日 2023-12-26 09:02:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク