Hierarchical Fashion Design with Multi-stage Diffusion Models

要約

クロスモーダルなファッション合成と編集は、デザイン ドラフトの自動生成とローカル修正を可能にすることで、ファッション デザイナーにインテリジェントなサポートを提供します。現在の普及モデルは、画像合成において賞賛に値する安定性と制御性を示していますが、抽象的なデザインからファッション デザインを生成する際には依然として大きな課題に直面しています。
オフィス、ビジネス、パーティーなどの抽象的な感覚表現が高レベルのデザインコンセプトを形成する一方、袖の長さ、襟のタイプ、パンツの長さなどの測定可能な要素は衣服の低レベルの属性とみなされます。
長いテキスト記述を使用してファッション画像を制御および編集することは困難を伴います。本論文では、上位レベルのデザイン概念と下位レベルの衣服属性を階層的に包含する共有多段階拡散モデルを使用する新しいファッションデザイン手法であるHieraFashDiffを提案します。
具体的には、入力テキストをさまざまなレベルに分類し、プロの衣料品デザイナーの基準に従って、異なるタイムステップで拡散モデルに入力しました。HieraFashDiff を使用すると、デザイナーはインタラクティブな編集のための高レベルのプロンプトの後に低レベルの属性を追加できます。
さらに、非編集領域を維持するためのマスクを使用して、サンプリング プロセスで微分可能な損失関数を設計します。新たに実施した階層型ファッション データセットに対して実行された包括的な実験により、私たちの提案手法が他の最先端の競合他社よりも優れていることが実証されました。

要約(オリジナル)

Cross-modal fashion synthesis and editing offer intelligent support to fashion designers by enabling the automatic generation and local modification of design drafts.While current diffusion models demonstrate commendable stability and controllability in image synthesis,they still face significant challenges in generating fashion design from abstract design elements and fine-grained editing.Abstract sensory expressions, \eg office, business, and party, form the high-level design concepts, while measurable aspects like sleeve length, collar type, and pant length are considered the low-level attributes of clothing.Controlling and editing fashion images using lengthy text descriptions poses a difficulty.In this paper, we propose HieraFashDiff,a novel fashion design method using the shared multi-stage diffusion model encompassing high-level design concepts and low-level clothing attributes in a hierarchical structure.Specifically, we categorized the input text into different levels and fed them in different time step to the diffusion model according to the criteria of professional clothing designers.HieraFashDiff allows designers to add low-level attributes after high-level prompts for interactive editing incrementally.In addition, we design a differentiable loss function in the sampling process with a mask to keep non-edit areas.Comprehensive experiments performed on our newly conducted Hierarchical fashion dataset,demonstrate that our proposed method outperforms other state-of-the-art competitors.

arxiv情報

著者 Zhifeng Xie,Hao li,Huiming Ding,Mengtian Li,Ying Cao
発行日 2024-01-18 13:55:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク