要約
拡散変換器(DiT)を用いたテキスト画像生成のための、新しいトレーニング不要の空間グラウンディング技術であるGrounDiTを紹介する。バウンディングボックスを用いた空間グラウンディングは、そのシンプルさと汎用性から注目されており、画像生成におけるユーザ制御の強化を可能にしている。しかし、トレーニング不要の先行アプローチは、カスタム損失関数からのバックプロパゲーションによる逆拡散プロセス中のノイズ画像の更新に依存することが多く、個々のバウンディングボックスに対する正確な制御を提供するのに苦労することが多い。本研究では、Transformerアーキテクチャの柔軟性を活用し、DiTが各境界ボックスに対応するノイズの多いパッチを生成し、ターゲットオブジェクトを完全に符号化し、各領域をきめ細かく制御できることを実証する。我々のアプローチは、意味共有と呼ばれるDiTの興味深い特性に基づいている。セマンティック共有により、小さなパッチが生成可能なサイズの画像と一緒に共同ノイズ除去されると、2つはセマンティッククローンになる。各パッチは生成プロセスのそれぞれの分岐でノイズ除去され、各タイムステップで元のノイズ画像の対応する領域に移植される。HRSとDrawBenchベンチマークを用いた実験では、これまでの学習不要のアプローチと比較して、最先端の性能を達成した。
要約(オリジナル)
We introduce GrounDiT, a novel training-free spatial grounding technique for text-to-image generation using Diffusion Transformers (DiT). Spatial grounding with bounding boxes has gained attention for its simplicity and versatility, allowing for enhanced user control in image generation. However, prior training-free approaches often rely on updating the noisy image during the reverse diffusion process via backpropagation from custom loss functions, which frequently struggle to provide precise control over individual bounding boxes. In this work, we leverage the flexibility of the Transformer architecture, demonstrating that DiT can generate noisy patches corresponding to each bounding box, fully encoding the target object and allowing for fine-grained control over each region. Our approach builds on an intriguing property of DiT, which we refer to as semantic sharing. Due to semantic sharing, when a smaller patch is jointly denoised alongside a generatable-size image, the two become semantic clones. Each patch is denoised in its own branch of the generation process and then transplanted into the corresponding region of the original noisy image at each timestep, resulting in robust spatial grounding for each bounding box. In our experiments on the HRS and DrawBench benchmarks, we achieve state-of-the-art performance compared to previous training-free approaches.
arxiv情報
著者 | Phillip Y. Lee,Taehoon Yoon,Minhyuk Sung |
発行日 | 2024-11-01 04:33:52+00:00 |
arxivサイト | arxiv_id(pdf) |