Fashionability-Enhancing Outfit Image Editing with Conditional Diffusion Models

要約

ファッション分野における画像生成では、主に身体の特徴を維持することや入力プロンプトに従うことに焦点が当てられてきましたが、出力画像の固有のファッション性の向上にはほとんど注意が払われてきませんでした。
この論文では、主要な属性の制御を維持しながら、ファッション性を向上させたファッション画像を生成する、新しい拡散モデルベースのアプローチを紹介します。
私たちの方法の主要なコンポーネントは次のとおりです。 1) ファッション性の向上。生成された画像が入力よりも確実にファッショナブルになります。
2) 身体の特徴を保存し、生成された画像が入力の元の形状と比率を維持するように促します。
3) 手動入力や外部プロンプトに依存しない自動ファッション最適化。
また、画像の生成と評価の際に、指導用のトレーニング データを収集する 2 つの方法も採用しています。
特に、OpenSkill ベースおよび 5 つの重要な側面ベースのペアごとの比較を通じて、複数のファッション専門家によって注釈が付けられたファッション性スコアを使用して、服装画像を評価します。
これらの方法は、生成された画像のファッション性を評価および改善するための補完的な視点を提供します。
実験結果では、ベースラインの Fashion++ よりも優れたファッション性を備えた画像の生成が可能であり、よりスタイリッシュで魅力的なファッション画像の生成に有効であることがわかりました。

要約(オリジナル)

Image generation in the fashion domain has predominantly focused on preserving body characteristics or following input prompts, but little attention has been paid to improving the inherent fashionability of the output images. This paper presents a novel diffusion model-based approach that generates fashion images with improved fashionability while maintaining control over key attributes. Key components of our method include: 1) fashionability enhancement, which ensures that the generated images are more fashionable than the input; 2) preservation of body characteristics, encouraging the generated images to maintain the original shape and proportions of the input; and 3) automatic fashion optimization, which does not rely on manual input or external prompts. We also employ two methods to collect training data for guidance while generating and evaluating the images. In particular, we rate outfit images using fashionability scores annotated by multiple fashion experts through OpenSkill-based and five critical aspect-based pairwise comparisons. These methods provide complementary perspectives for assessing and improving the fashionability of the generated images. The experimental results show that our approach outperforms the baseline Fashion++ in generating images with superior fashionability, demonstrating its effectiveness in producing more stylish and appealing fashion images.

arxiv情報

著者 Qice Qin,Yuki Hirakawa,Ryotaro Shimizu,Takuya Furusawa,Edgar Simo-Serra
発行日 2024-12-24 13:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク