HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for Controllable Text-Driven Person Image Generation

要約

テキスト駆動の人物画像生成は、クロスモダリティ画像生成における新たな挑戦的なタスクです。
制御可能な人物画像の生成は、デジタル ヒューマン インタラクションや仮想試着などの幅広いアプリケーションを促進します。
ただし、以前の方法では、ほとんどの場合、事前条件として単一モダリティ情報を使用するか (例: 姿勢誘導人物画像生成)、またはテキスト駆動型人間合成にプリセット単語を利用します。
編集可能なセマンティック ポーズ マップを使用してフリー ワードで構成された文を導入して、人物の外観を説明すると、よりユーザー フレンドリーな方法になります。
この論文では、テキスト駆動型の人物画像生成のための粗い配置から細かい配置への拡散フレームワークである HumanDiffusion を提案します。
具体的には、2 つの共同モジュールが提案されています。データ処理における細粒度の特徴抽出のための Stylized Memory Retrieval (SMR) モジュールと、拡散における粗い特徴から細かい特徴への整列のための Multi-scale Cross-modality Alignment (MCA) モジュールです。
これら 2 つのモジュールは、画像レベルから機能レベルまで、低解像度から高解像度まで、テキストと画像の位置合わせ品質を保証します。
その結果、HumanDiffusion は、必要なセマンティック ポーズを持つオープン ボキャブラリーの人物画像生成を実現します。
DeepFashionで実施された広範な実験は、以前のアプローチと比較して、私たちの方法の優位性を示しています.
さらに、さまざまな詳細や珍しいポーズを含む複雑な人物画像に対して、より良い結果が得られました。

要約(オリジナル)

Text-driven person image generation is an emerging and challenging task in cross-modality image generation. Controllable person image generation promotes a wide range of applications such as digital human interaction and virtual try-on. However, previous methods mostly employ single-modality information as the prior condition (e.g. pose-guided person image generation), or utilize the preset words for text-driven human synthesis. Introducing a sentence composed of free words with an editable semantic pose map to describe person appearance is a more user-friendly way. In this paper, we propose HumanDiffusion, a coarse-to-fine alignment diffusion framework, for text-driven person image generation. Specifically, two collaborative modules are proposed, the Stylized Memory Retrieval (SMR) module for fine-grained feature distillation in data processing and the Multi-scale Cross-modality Alignment (MCA) module for coarse-to-fine feature alignment in diffusion. These two modules guarantee the alignment quality of the text and image, from image-level to feature-level, from low-resolution to high-resolution. As a result, HumanDiffusion realizes open-vocabulary person image generation with desired semantic poses. Extensive experiments conducted on DeepFashion demonstrate the superiority of our method compared with previous approaches. Moreover, better results could be obtained for complicated person images with various details and uncommon poses.

arxiv情報

著者 Kaiduo Zhang,Muyi Sun,Jianxin Sun,Binghao Zhao,Kunbo Zhang,Zhenan Sun,Tieniu Tan
発行日 2022-11-11 14:30:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク