要約
ファッション業界では、オンラインショッピング体験や業務効率を高めるために、コンピュータビジョンやディープラーニング技術の活用が進んでいる。本論文では、モデルが着用した衣服の写真から、パーソナライズされたレコメンデーション、服の構成、仮想試着システムに不可欠な、忠実度の高いタイル状の衣服画像を生成するという課題に取り組む。画像間変換におけるLDM(Latent Diffusion Models)の成功に触発され、微調整されたStableDiffusionモデルを利用した新しいアプローチを提案する。本手法は、合理化されたシングルステージのネットワーク設計を特徴としており、衣服に特化したマスクを統合することで、ターゲットとなる衣服アイテムを効果的に分離・処理する。トランスフォーマーブロックを選択的にトレーニングし、不要なクロスアテンションレイヤーを削除することでネットワークアーキテクチャを簡素化することで、VITON-HDのようなベンチマークデータセットで最先端の性能を達成しながら、計算の複雑さを大幅に削減します。実験結果は、全身と半身の両方の入力に対して高品質なタイル状の衣服画像を生成する上で、我々のアプローチの有効性を実証している。コードとモデルは以下から入手可能: https://github.com/ixarchakos/try-off-anyone
要約(オリジナル)
The fashion industry is increasingly leveraging computer vision and deep learning technologies to enhance online shopping experiences and operational efficiencies. In this paper, we address the challenge of generating high-fidelity tiled garment images essential for personalized recommendations, outfit composition, and virtual try-on systems from photos of garments worn by models. Inspired by the success of Latent Diffusion Models (LDMs) in image-to-image translation, we propose a novel approach utilizing a fine-tuned StableDiffusion model. Our method features a streamlined single-stage network design, which integrates garmentspecific masks to isolate and process target clothing items effectively. By simplifying the network architecture through selective training of transformer blocks and removing unnecessary crossattention layers, we significantly reduce computational complexity while achieving state-of-the-art performance on benchmark datasets like VITON-HD. Experimental results demonstrate the effectiveness of our approach in producing high-quality tiled garment images for both full-body and half-body inputs. Code and model are available at: https://github.com/ixarchakos/try-off-anyone
arxiv情報
著者 | Ioannis Xarchakos,Theodoros Koukopoulos |
発行日 | 2025-01-03 11:34:09+00:00 |
arxivサイト | arxiv_id(pdf) |