要約
標準的な製品ビューの孤立した衣服の画像と人の別の画像を考えると、仮想トライオンタスクは、ターゲットの衣服を着ている人の新しい画像を生成することを目指しています。
以前のバーチャルトライオンワークスは、この目標を達成する上で2つの大きな課題に直面しています。a)ペアの(人間、衣服)トレーニングデータの可用性は限られています。
b)プロンプトされた衣服のそれと完全に一致するテクスチャの生成は困難であり、多くの場合、歪んだテキストと色あせたテクスチャをもたらします。
私たちの作品は、合成データとモデルの改良の両方を通じてこれらの問題に取り組む方法を探ります。
服を着た個人の単一の画像から(人間、合成衣服)ペアを生成する衣服抽出モデルを導入します。
その後、合成ペアを使用して、仮想トライオンのトレーニングを強化できます。
また、ベース仮想トライオンモデルの出力を修正するために局所的な生成エラーを外科的に標的とするエラーを認識した改良ベースのSchr \ ‘Odinger Bridge(EARSB)を提案します。
可能性のあるエラーを識別するために、洗練のために領域を局在させる弱く監視されたエラー分類器を提案し、その後、信頼ヒートマップでSchr \ ‘Odinger Bridgeの騒音スケジュールを増強します。
Viton-HDとDresscode-Upperの実験は、合成データの増強が以前の作業のパフォーマンスを向上させ、EARSBが全体的な画質を向上させることを示しています。
ユーザー調査では、私たちのモデルは、平均59%のケースでユーザーに好まれています。
要約(オリジナル)
Given an isolated garment image in a canonical product view and a separate image of a person, the virtual try-on task aims to generate a new image of the person wearing the target garment. Prior virtual try-on works face two major challenges in achieving this goal: a) the paired (human, garment) training data has limited availability; b) generating textures on the human that perfectly match that of the prompted garment is difficult, often resulting in distorted text and faded textures. Our work explores ways to tackle these issues through both synthetic data as well as model refinement. We introduce a garment extraction model that generates (human, synthetic garment) pairs from a single image of a clothed individual. The synthetic pairs can then be used to augment the training of virtual try-on. We also propose an Error-Aware Refinement-based Schr\’odinger Bridge (EARSB) that surgically targets localized generation errors for correcting the output of a base virtual try-on model. To identify likely errors, we propose a weakly-supervised error classifier that localizes regions for refinement, subsequently augmenting the Schr\’odinger Bridge’s noise schedule with its confidence heatmap. Experiments on VITON-HD and DressCode-Upper demonstrate that our synthetic data augmentation enhances the performance of prior work, while EARSB improves the overall image quality. In user studies, our model is preferred by the users in an average of 59% of cases.
arxiv情報
著者 | Nannan Li,Kevin J. Shih,Bryan A. Plummer |
発行日 | 2025-05-07 16:55:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google