要約
我々は、バーチャル試着ビデオを生成するためのビデオ拡散モデル(VDM)であるFashion-VDMを発表する。本手法は、衣服画像と人物映像が入力されると、人物のアイデンティティと動きを保持しつつ、与えられた衣服を着用した人物の高品質な試着映像を生成することを目的とする。画像ベースのバーチャル試着は素晴らしい結果を示しているが、既存のビデオバーチャルトライオン(VVT)手法は、衣服の詳細と時間的一貫性に欠けている。これらの問題に対処するために、我々は、ビデオバーチャルトライオンのための拡散ベースのアーキテクチャを提案し、コンディショニング入力の制御を強化するためのスプリットクラシファイアフリーのガイダンスと、シングルパス64フレーム、512pxビデオ生成のための漸進的な時間的トレーニング戦略を提案する。また、特にビデオデータが限られている場合に、ビデオトライオンのための画像-ビデオ共同トレーニングの有効性を実証する。我々の定性的および定量的な実験により、我々のアプローチがビデオバーチャルトライオンの新たな最先端となることが示された。その他の結果については、プロジェクトページhttps://johannakarras.github.io/Fashion-VDM。
要約(オリジナル)
We present Fashion-VDM, a video diffusion model (VDM) for generating virtual try-on videos. Given an input garment image and person video, our method aims to generate a high-quality try-on video of the person wearing the given garment, while preserving the person’s identity and motion. Image-based virtual try-on has shown impressive results; however, existing video virtual try-on (VVT) methods are still lacking garment details and temporal consistency. To address these issues, we propose a diffusion-based architecture for video virtual try-on, split classifier-free guidance for increased control over the conditioning inputs, and a progressive temporal training strategy for single-pass 64-frame, 512px video generation. We also demonstrate the effectiveness of joint image-video training for video try-on, especially when video data is limited. Our qualitative and quantitative experiments show that our approach sets the new state-of-the-art for video virtual try-on. For additional results, visit our project page: https://johannakarras.github.io/Fashion-VDM.
arxiv情報
著者 | Johanna Karras,Yingwei Li,Nan Liu,Luyang Zhu,Innfarn Yoo,Andreas Lugmayr,Chris Lee,Ira Kemelmacher-Shlizerman |
発行日 | 2024-11-04 16:46:01+00:00 |
arxivサイト | arxiv_id(pdf) |