Generate E-commerce Product Background by Integrating Category Commonality and Personalized Style

要約

電子商取引の製品背景を生成する最先端の方法は、制作をスケールアップする際に製品ごとのプロンプトを設計する非効率性と、特定のパーソナライズされた背景をカスタマイズする際の詳細なスタイルを記述する非効率性という問題に悩まされています。
ブランド。
これらの障害に対処するために、私たちはカテゴリの共通性とパーソナライズされたスタイルを普及モデルに統合します。
具体的には、1つのモデルのみで大規模な背景生成を初めて可能にするCategory-Wise Generatorを提案します。
プロンプト内の一意の識別子が各カテゴリに割り当てられ、カテゴリごとのスタイルを学習するために、マスク ガイド付きクロス アテンション レイヤーによって背景に注目が置かれます。
さらに、レイアウトや要素などに特定の細かい要件がある製品の場合、Personality-Wise Generator がそのようなパーソナライズされたスタイルを参照画像から直接学習してテキストの曖昧さを解決するように考案され、自己監視型の方法でトレーニングされます。
トレーニング データの使用効率が向上します。
この分野の研究を進めるために、2,000 を超えるカテゴリから 60,000 を超える製品画像をカバーする、最初の大規模な電子商取引製品背景生成データセット BG60k が構築されました。
実験により、私たちの方法がさまざまなカテゴリに対して高品質の背景を生成し、参照画像のパーソナライズされた背景スタイルを維持できることが実証されました。
BG60k は \url{https://github.com/whileherham/BG60k} で入手できます。

要約(オリジナル)

The state-of-the-art methods for e-commerce product background generation suffer from the inefficiency of designing product-wise prompts when scaling up the production, as well as the ineffectiveness of describing fine-grained styles when customizing personalized backgrounds for some specific brands. To address these obstacles, we integrate the category commonality and personalized style into diffusion models. Concretely, we propose a Category-Wise Generator to enable large-scale background generation with only one model for the first time. A unique identifier in the prompt is assigned to each category, whose attention is located on the background by a mask-guided cross attention layer to learn the category-wise style. Furthermore, for products with specific and fine-grained requirements in layout, elements, etc, a Personality-Wise Generator is devised to learn such personalized style directly from a reference image to resolve textual ambiguities, and is trained in a self-supervised manner for more efficient training data usage. To advance research in this field, the first large-scale e-commerce product background generation dataset BG60k is constructed, which covers more than 60k product images from over 2k categories. Experiments demonstrate that our method could generate high-quality backgrounds for different categories, and maintain the personalized background style of reference images. BG60k will be available at \url{https://github.com/Whileherham/BG60k}.

arxiv情報

著者 Haohan Wang,Wei Feng,Yaoyu Li,Zheng Zhang,Jingjing Lv,Junjie Shen,Zhangang Lin,Jingping Shao
発行日 2025-01-17 13:28:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク