要約
制御可能な人物画像の生成は、参照画像に基づいて人物画像を生成し、人物の外観や姿勢を正確に制御できるようにすることを目的としています。
しかしながら、従来の方法では、全体として高い画像品質を達成しているにもかかわらず、基準画像のきめの細かいテクスチャの詳細が歪んでしまうことがよくあります。
これらの歪みは、参照画像内の対応する領域に対する注意が不十分であることが原因であると考えられます。
これに対処するために、トレーニング中にターゲット クエリがアテンション層の正しい参照キーに注意するように明示的にガイドする、アテンションにおける学習フロー フィールド (Leffa) を提案します。
具体的には、拡散ベースのベースライン内のアテンション マップ上の正則化損失によって実現されます。
私たちの広範な実験により、Leffa は外観 (仮想試着) とポーズ (ポーズ転送) の制御において最先端のパフォーマンスを実現し、高画質を維持しながら微細な細部の歪みを大幅に軽減することが示されています。
さらに、損失がモデルに依存せず、他の拡散モデルのパフォーマンスを向上させるために使用できることを示します。
要約(オリジナル)
Controllable person image generation aims to generate a person image conditioned on reference images, allowing precise control over the person’s appearance or pose. However, prior methods often distort fine-grained textural details from the reference image, despite achieving high overall image quality. We attribute these distortions to inadequate attention to corresponding regions in the reference image. To address this, we thereby propose learning flow fields in attention (Leffa), which explicitly guides the target query to attend to the correct reference key in the attention layer during training. Specifically, it is realized via a regularization loss on top of the attention map within a diffusion-based baseline. Our extensive experiments show that Leffa achieves state-of-the-art performance in controlling appearance (virtual try-on) and pose (pose transfer), significantly reducing fine-grained detail distortion while maintaining high image quality. Additionally, we show that our loss is model-agnostic and can be used to improve the performance of other diffusion models.
arxiv情報
著者 | Zijian Zhou,Shikun Liu,Xiao Han,Haozhe Liu,Kam Woh Ng,Tian Xie,Yuren Cong,Hang Li,Mengmeng Xu,Juan-Manuel Pérez-Rúa,Aditya Patel,Tao Xiang,Miaojing Shi,Sen He |
発行日 | 2024-12-12 18:43:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google