要約
コンピュータービジョンは、Virtual Try-On(VTON)と仮想トリオフ(VTOFF)を通じてファッションを変換しています。
VTONは、ターゲット写真と標準化された衣服の画像を使用して指定された衣服にいる人の画像を生成しますが、より挑戦的なバリアント、人から人から人への仮想トライオン(P2P-Vton)は、衣服を着ている他の人の写真を使用します。
一方、vtoffは、服を着た個人から標準化された衣服の画像を抽出します。
拡散ベースのVTOFFモデルであるTryOffdiffを紹介します。
Siglip画像コンディショニングを備えた潜在的な拡散フレームワークの上に構築され、テクスチャ、形状、パターンなどの衣服の特性を効果的にキャプチャします。
TryOffdiffは、Viton-HDで最先端の結果を達成し、ドレスコードデータセットで強力なパフォーマンスを実現し、上半身、下半身、およびドレスをカバーしています。
クラス固有の埋め込みで強化された、それはこの種の最初のパイオニアマルチガレメントVtoffです。
VTONモデルと組み合わせると、肌の色などの不要な属性伝達を最小限に抑えることにより、P2P-Vtonを改善します。
コードはhttps://rizavelioglu.github.io/tryoffdiff/で入手できます
要約(オリジナル)
Computer vision is transforming fashion through Virtual Try-On (VTON) and Virtual Try-Off (VTOFF). VTON generates images of a person in a specified garment using a target photo and a standardized garment image, while a more challenging variant, Person-to-Person Virtual Try-On (p2p-VTON), uses a photo of another person wearing the garment. VTOFF, on the other hand, extracts standardized garment images from clothed individuals. We introduce TryOffDiff, a diffusion-based VTOFF model. Built on a latent diffusion framework with SigLIP image conditioning, it effectively captures garment properties like texture, shape, and patterns. TryOffDiff achieves state-of-the-art results on VITON-HD and strong performance on DressCode dataset, covering upper-body, lower-body, and dresses. Enhanced with class-specific embeddings, it pioneers multi-garment VTOFF, the first of its kind. When paired with VTON models, it improves p2p-VTON by minimizing unwanted attribute transfer, such as skin color. Code is available at: https://rizavelioglu.github.io/tryoffdiff/
arxiv情報
著者 | Riza Velioglu,Petra Bevandic,Robin Chan,Barbara Hammer |
発行日 | 2025-04-17 16:45:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google