MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on

要約

Video Virtual Try-On(VVT)は、連続したビデオフレームにわたる衣服の自然な外観をシミュレートし、動的なバリエーションと人体の動きとの相互作用をキャプチャすることを目的としています。
ただし、現在のVVTメソッドは、時空間的な一貫性と衣服の内容の保存という点で依然として課題に直面しています。
第一に、彼らはU-NETに基づいて拡散モデルを使用します。U-Netは、表現力のある能力が制限され、複雑な詳細を再構築するのに苦労しています。
第二に、彼らは空間的および時間的注意のために分離モデリングアプローチを採用します。これは、構造的関係の効果的なキャプチャとフレーム間の動的な一貫性を妨げます。
第三に、衣服の詳細の表現は不十分であり、特に人間の動きの間、全体的な合成結果のリアリズムと安定性に影響を与えます。
上記の課題に対処するために、大規模なビデオ拡散トランスの上に構築されたビデオ仮想トライオンフレームワークであるMagicTryonを提案します。
U-Netアーキテクチャを拡散トランスに置き換え、完全な自己触媒を組み合わせて、ビデオの時空間的な一貫性を共同でモデル化します。
粗から洗練された衣服の保存戦略を設計します。
粗い戦略は、埋め込み段階で衣服トークンを統合しますが、細かい戦略には、除去段階でのセマンティクス、テクスチャ、輪郭線などの複数の衣服ベースの条件が組み込まれています。
さらに、衣服地域の忠実度をさらに最適化するために、マスクを意識した損失を導入します。
画像とビデオの両方のデータセットでの広範な実験は、この方法が包括的な評価で既存のSOTAメソッドを上回り、野生のシナリオに一般化することを示しています。

要約(オリジナル)

Video Virtual Try-On (VVT) aims to simulate the natural appearance of garments across consecutive video frames, capturing their dynamic variations and interactions with human body motion. However, current VVT methods still face challenges in terms of spatiotemporal consistency and garment content preservation. First, they use diffusion models based on the U-Net, which are limited in their expressive capability and struggle to reconstruct complex details. Second, they adopt a separative modeling approach for spatial and temporal attention, which hinders the effective capture of structural relationships and dynamic consistency across frames. Third, their expression of garment details remains insufficient, affecting the realism and stability of the overall synthesized results, especially during human motion. To address the above challenges, we propose MagicTryOn, a video virtual try-on framework built upon the large-scale video diffusion Transformer. We replace the U-Net architecture with a diffusion Transformer and combine full self-attention to jointly model the spatiotemporal consistency of videos. We design a coarse-to-fine garment preservation strategy. The coarse strategy integrates garment tokens during the embedding stage, while the fine strategy incorporates multiple garment-based conditions, such as semantics, textures, and contour lines during the denoising stage. Moreover, we introduce a mask-aware loss to further optimize garment region fidelity. Extensive experiments on both image and video try-on datasets demonstrate that our method outperforms existing SOTA methods in comprehensive evaluations and generalizes to in-the-wild scenarios.

arxiv情報

著者 Guangyuan Li,Siming Zheng,Hao Zhang,Jinwei Chen,Junsheng Luan,Binkai Ou,Lei Zhao,Bo Li,Peng-Tao Jiang
発行日 2025-05-28 12:45:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク