VirtualModel: Generating Object-ID-retentive Human-object Interaction Image by Diffusion Model for E-commerce Marketing

要約

拡散モデル (DM) による大規模なテキストから画像への生成が大幅に進歩したため、制御可能な人物画像生成が最近大きな注目を集めています。
Controlnet [36]、T2I アダプター [20]、HumanSD [10] などの既存の作品は、ポーズ条件に基づいて人間の画像を生成する優れた能力を実証していますが、実際の電子商取引シナリオの要件をまだ満たしていません。
これらには、(1) 表示される製品と人間の間の相互作用を考慮する必要がある、(2) 顔/手/腕/足などの人間の部分と人間モデルと製品の間の相互作用は超現実的である必要がある、(3) アイデンティティが含まれる
広告に表示される製品の内容は、製品自体と正確に一致している必要があります。
この目的を達成するために、この論文では、まず、電子商取引マーケティングのための新しい人物画像生成タスク、すなわちオブジェクトID保持型ヒューマンオブジェクトインタラクション画像生成(OHG)を定義し、次に人物画像を生成するためのVirtualModelフレームワークを提案する。
表示されている製品の場合、あらゆるカテゴリの製品の表示と、あらゆるタイプの人間とオブジェクトのインタラクションをサポートします。
図 1 に示すように、VirtualModel は、正確な姿勢制御と画質の点で他の方法よりも優れているだけでなく、製品 ID の一貫性を維持し、人間とオブジェクトの相互作用の妥当性を高めることで、ユーザーが指定した製品オブジェクトの表示も可能にします。
コードとデータは公開されます。

要約(オリジナル)

Due to the significant advances in large-scale text-to-image generation by diffusion model (DM), controllable human image generation has been attracting much attention recently. Existing works, such as Controlnet [36], T2I-adapter [20] and HumanSD [10] have demonstrated good abilities in generating human images based on pose conditions, they still fail to meet the requirements of real e-commerce scenarios. These include (1) the interaction between the shown product and human should be considered, (2) human parts like face/hand/arm/foot and the interaction between human model and product should be hyper-realistic, and (3) the identity of the product shown in advertising should be exactly consistent with the product itself. To this end, in this paper, we first define a new human image generation task for e-commerce marketing, i.e., Object-ID-retentive Human-object Interaction image Generation (OHG), and then propose a VirtualModel framework to generate human images for product shown, which supports displays of any categories of products and any types of human-object interaction. As shown in Figure 1, VirtualModel not only outperforms other methods in terms of accurate pose control and image quality but also allows for the display of user-specified product objects by maintaining the product-ID consistency and enhancing the plausibility of human-object interaction. Codes and data will be released.

arxiv情報

著者 Binghui Chen,Chongyang Zhong,Wangmeng Xiang,Yifeng Geng,Xuansong Xie
発行日 2024-05-16 11:05:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク