VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers

要約

ビデオ試着は、現実世界での大きな可能性を秘めた有望な分野です。
これまでの作品は、製品の衣服の画像を単純なポーズと背景を持つ人物ビデオに転写することに限定されており、何気なく撮影したビデオでは十分な効果が得られませんでした。
最近、Sora は、現実世界のシナリオをフィーチャーしたリアルなビデオを生成する際の Diffusion Transformer (DiT) のスケーラビリティを明らかにしました。
これに触発されて、私たちは、VITON-DiT という実用的な現場アプリケーション向けの初の DiT ベースのビデオ試着フレームワークを検討し、提案します。
具体的には、VITON-DiT は、衣類抽出機能、時空間ノイズ除去 DiT、およびアイデンティティ保存 ControlNet で構成されます。
衣服の詳細を忠実に復元するために、抽出された衣服の特徴が、ノイズ除去 DiT および ControlNet のセルフアテンション出力と融合されます。
また、トレーニング中に新しいランダム選択戦略を導入し、長いビデオの生成を容易にする推論時に補間自己回帰 (IAR) 手法を導入します。
ペアのトレーニング データセットの骨の折れる制限的な構築を必要とし、スケーラビリティが大幅に制限される既存の試みとは異なり、VITON-DiT はペアのない人間のダンス ビデオと慎重に設計されたマルチステージ トレーニング戦略のみに依存することでこれを軽減します。
さらに、カジュアルなビデオ試着のパフォーマンスを評価するために、挑戦的なベンチマーク データセットを厳選しました。
広範な実験により、人間の複雑なポーズを含む野外ビデオで時空間的に一貫した試着結果を生成する VITON-DiT の優位性が実証されました。

要約(オリジナル)

Video try-on stands as a promising area for its tremendous real-world potential. Prior works are limited to transferring product clothing images onto person videos with simple poses and backgrounds, while underperforming on casually captured videos. Recently, Sora revealed the scalability of Diffusion Transformer (DiT) in generating lifelike videos featuring real-world scenarios. Inspired by this, we explore and propose the first DiT-based video try-on framework for practical in-the-wild applications, named VITON-DiT. Specifically, VITON-DiT consists of a garment extractor, a Spatial-Temporal denoising DiT, and an identity preservation ControlNet. To faithfully recover the clothing details, the extracted garment features are fused with the self-attention outputs of the denoising DiT and the ControlNet. We also introduce novel random selection strategies during training and an Interpolated Auto-Regressive (IAR) technique at inference to facilitate long video generation. Unlike existing attempts that require the laborious and restrictive construction of a paired training dataset, severely limiting their scalability, VITON-DiT alleviates this by relying solely on unpaired human dance videos and a carefully designed multi-stage training strategy. Furthermore, we curate a challenging benchmark dataset to evaluate the performance of casual video try-on. Extensive experiments demonstrate the superiority of VITON-DiT in generating spatio-temporal consistent try-on results for in-the-wild videos with complicated human poses.

arxiv情報

著者 Jun Zheng,Fuwei Zhao,Youjiang Xu,Xin Dong,Xiaodan Liang
発行日 2024-05-28 16:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク