要約
ファッション業界では、オンライン ショッピング エクスペリエンスと業務効率を向上させるために、コンピューター ビジョンとディープ ラーニング テクノロジーをますます活用しています。
この論文では、モデルが着用した衣服の写真から、パーソナライズされた推奨事項、服装構成、仮想試着システムに不可欠な高忠実度のタイル張り衣服画像を生成するという課題に取り組みます。
画像から画像への変換における潜在拡散モデル (LDM) の成功に触発され、微調整された StableDiffusion モデルを利用した新しいアプローチを提案します。
私たちの方法は、衣類固有のマスクを統合して、対象の衣料品を効果的に隔離して処理する、合理化された単一段階のネットワーク設計を特徴としています。
トランスフォーマー ブロックの選択的トレーニングを通じてネットワーク アーキテクチャを簡素化し、不要なクロスアテンション層を削除することで、計算の複雑さを大幅に軽減しながら、VITON-HD などのベンチマーク データセットで最先端のパフォーマンスを実現します。
実験結果は、全身入力と半身入力の両方で高品質のタイル張りの衣服画像を生成する際のアプローチの有効性を示しています。
コードとモデルは、https://github.com/ixarchakos/try-off-anyone から入手できます。
要約(オリジナル)
The fashion industry is increasingly leveraging computer vision and deep learning technologies to enhance online shopping experiences and operational efficiencies. In this paper, we address the challenge of generating high-fidelity tiled garment images essential for personalized recommendations, outfit composition, and virtual try-on systems from photos of garments worn by models. Inspired by the success of Latent Diffusion Models (LDMs) in image-to-image translation, we propose a novel approach utilizing a fine-tuned StableDiffusion model. Our method features a streamlined single-stage network design, which integrates garmentspecific masks to isolate and process target clothing items effectively. By simplifying the network architecture through selective training of transformer blocks and removing unnecessary crossattention layers, we significantly reduce computational complexity while achieving state-of-the-art performance on benchmark datasets like VITON-HD. Experimental results demonstrate the effectiveness of our approach in producing high-quality tiled garment images for both full-body and half-body inputs. Code and model are available at: https://github.com/ixarchakos/try-off-anyone
arxiv情報
| 著者 | Ioannis Xarchakos,Theodoros Koukopoulos |
| 発行日 | 2024-12-11 17:41:53+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google