Masked Extended Attention for Zero-Shot Virtual Try-On In The Wild

要約

仮想試着 (VTON) は非常に活発な研究分野であり、需要が高まっています。
これは、人物や衣服の特徴と画像の忠実性を維持しながら、画像内の衣服を別の衣服に置き換えることを目的としています。
現在の文献では、このタスクに対して教師ありアプローチが採用されており、一般化が損なわれ、大量の計算が課せられています。
この論文では、参照により衣類を修復するためのゼロショットトレーニング不要の新しい方法を紹介します。
私たちのアプローチでは、追加のトレーニングを行わずに拡散モデルの事前分布を採用し、ネイティブの一般化機能を最大限に活用します。
この方法では、拡張された注意を利用して画像情報を参照画像からターゲット画像に転送し、2 つの重要な課題を克服します。
まず最初に、深いフィーチャを使用してターゲットの人間の上に参照衣服をワープし、「テクスチャの貼り付き」を軽減します。
次に、慎重なマスキングによる拡張注意メカニズムを活用し、参照背景の漏洩と不要な影響を排除します。
ユーザー調査、最先端のアプローチとの定性的および定量的比較を通じて、目に見えない衣服や人物と比較して優れた画質と衣服の保存を実証します。

要約(オリジナル)

Virtual Try-On (VTON) is a highly active line of research, with increasing demand. It aims to replace a piece of garment in an image with one from another, while preserving person and garment characteristics as well as image fidelity. Current literature takes a supervised approach for the task, impairing generalization and imposing heavy computation. In this paper, we present a novel zero-shot training-free method for inpainting a clothing garment by reference. Our approach employs the prior of a diffusion model with no additional training, fully leveraging its native generalization capabilities. The method employs extended attention to transfer image information from reference to target images, overcoming two significant challenges. We first initially warp the reference garment over the target human using deep features, alleviating ‘texture sticking’. We then leverage the extended attention mechanism with careful masking, eliminating leakage of reference background and unwanted influence. Through a user study, qualitative, and quantitative comparison to state-of-the-art approaches, we demonstrate superior image quality and garment preservation compared unseen clothing pieces or human figures.

arxiv情報

著者 Nadav Orzech,Yotam Nitzan,Ulysse Mizrahi,Dov Danon,Amit H. Bermano
発行日 2024-06-21 17:45:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク