Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise Scheduling

要約

正規の製品ビュー内の分離された衣服の画像と人物の別個の画像が与えられた場合、仮想試着タスクは、ターゲットの衣服を着ている人の新しい画像を生成することを目的としています。
これまでの仮想試着作業は、この目標を達成する上で 2 つの大きな課題に直面しています。a) ペアになった (人間、衣服) トレーニング データの可用性が限られている。
b) 指示された衣服のテクスチャと完全に一致するテクスチャを人間に生成することは難しく、多くの場合、テキストが歪んだり、テクスチャが色褪せたりする結果になります。
私たちの研究では、合成データとモデルの改良の両方を通じてこれらの問題に取り組む方法を模索しています。
衣服を着た個人の 1 つの画像から (人間と合成の衣服) のペアを生成する衣服抽出モデルを紹介します。
合成ペアは、仮想試着のトレーニングを強化するために使用できます。
また、ベースの仮想試着モデルの出力を修正するために局所的な生成エラーを外科的にターゲットにする、Error-Aware Refinement-based Schr\’odinger Bridge (EARSB) も提案します。
可能性の高いエラーを特定するために、微調整する領域を特定し、その後、信頼性ヒートマップを使用してシュレディンガー ブリッジのノイズ スケジュールを強化する、弱教師付きエラー分類器を提案します。
VITON-HD と DressCode-Upper の実験では、合成データの拡張によって以前の作業のパフォーマンスが向上し、EARSB によって全体的な画質が向上することが実証されました。
ユーザー調査では、平均 59% のケースで当社のモデルがユーザーに好まれています。

要約(オリジナル)

Given an isolated garment image in a canonical product view and a separate image of a person, the virtual try-on task aims to generate a new image of the person wearing the target garment. Prior virtual try-on works face two major challenges in achieving this goal: a) the paired (human, garment) training data has limited availability; b) generating textures on the human that perfectly match that of the prompted garment is difficult, often resulting in distorted text and faded textures. Our work explores ways to tackle these issues through both synthetic data as well as model refinement. We introduce a garment extraction model that generates (human, synthetic garment) pairs from a single image of a clothed individual. The synthetic pairs can then be used to augment the training of virtual try-on. We also propose an Error-Aware Refinement-based Schr\’odinger Bridge (EARSB) that surgically targets localized generation errors for correcting the output of a base virtual try-on model. To identify likely errors, we propose a weakly-supervised error classifier that localizes regions for refinement, subsequently augmenting the Schr\’odinger Bridge’s noise schedule with its confidence heatmap. Experiments on VITON-HD and DressCode-Upper demonstrate that our synthetic data augmentation enhances the performance of prior work, while EARSB improves the overall image quality. In user studies, our model is preferred by the users in an average of 59% of cases.

arxiv情報

著者 Nannan Li,Kevin J. Shih,Bryan A. Plummer
発行日 2025-01-08 18:25:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク