Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation

要約

制御可能なテキストから画像への (T2I) 拡散モデルは、さまざまな条件を組み込むことで高品質のビジュアル コンテンツを生成する際に優れたパフォーマンスを示しています。
しかし、現在の方法は、人間のスケルトンのポーズに誘導された場合、特に人物の側面または背面の視点などの複雑なポーズ条件では、限られたパフォーマンスを示します。
この問題に対処するために、T2I モデルの正確なポーズ ガイダンスを取得するために、ビジョン トランスフォーマー (ViT) に粗いから細かいアテンション マスキング戦略を導入する新しいアダプター モデルである Stable-Pose を紹介します。
Stable-Pose は、事前トレーニングされた Stable Diffusion 内のポーズ条件を適切に処理するように設計されており、画像合成中にポーズ表現を調整する洗練された効率的な方法を提供します。
私たちは、ViT のクエリキー セルフ アテンション メカニズムを活用して、人間のポーズの骨格におけるさまざまな解剖学的部分間の相互接続を調査します。
マスクされたポーズ画像は、粗いレベルから細かいレベルに移行しながら、階層的な方法でターゲットのポーズ関連の特徴に基づいてアテンション マップをスムーズに調整するために使用されます。
さらに、損失関数はポーズ領域に重点を割り当てるように定式化されており、それによって複雑なポーズの詳細を捕捉する際のモデルの精度が向上します。
私たちは、屋内および屋外のさまざまな人間のポーズ シナリオの下で、5 つの公開データセットにわたる Stable-Pose のパフォーマンスを評価しました。
Stable-Pose は、LAION-Human データセットで 57.1 の AP スコアを達成し、確立された技術である ControlNet よりも約 13% 向上しました。
プロジェクトのリンクとコードは https://github.com/ai-med/StablePose で入手できます。

要約(オリジナル)

Controllable text-to-image (T2I) diffusion models have shown impressive performance in generating high-quality visual content through the incorporation of various conditions. Current methods, however, exhibit limited performance when guided by skeleton human poses, especially in complex pose conditions such as side or rear perspectives of human figures. To address this issue, we present Stable-Pose, a novel adapter model that introduces a coarse-to-fine attention masking strategy into a vision Transformer (ViT) to gain accurate pose guidance for T2I models. Stable-Pose is designed to adeptly handle pose conditions within pre-trained Stable Diffusion, providing a refined and efficient way of aligning pose representation during image synthesis. We leverage the query-key self-attention mechanism of ViTs to explore the interconnections among different anatomical parts in human pose skeletons. Masked pose images are used to smoothly refine the attention maps based on target pose-related features in a hierarchical manner, transitioning from coarse to fine levels. Additionally, our loss function is formulated to allocate increased emphasis to the pose region, thereby augmenting the model’s precision in capturing intricate pose details. We assessed the performance of Stable-Pose across five public datasets under a wide range of indoor and outdoor human pose scenarios. Stable-Pose achieved an AP score of 57.1 in the LAION-Human dataset, marking around 13% improvement over the established technique ControlNet. The project link and code is available at https://github.com/ai-med/StablePose.

arxiv情報

著者 Jiajun Wang,Morteza Ghahremani,Yitong Li,Björn Ommer,Christian Wachinger
発行日 2024-06-04 16:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク