PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm

要約

Video Virtual Try-Onは、視覚的な忠実度と時間的一貫性の両方を維持しながら、ビデオのターゲット担当者に参照衣服をシームレスに転送することを目的としています。
既存の方法は、通常、マスクの入力に依存して試行領域を定義し、シンプルなシーンの正確な衣服の転送を可能にします(たとえば、ショップ内のビデオなど)。
ただし、これらのマスクベースのアプローチは、複雑な現実世界のシナリオと格闘しています。これは、過度に大きくて一貫性のないマスクが空間的情報を破壊し、歪んだ結果につながるためです。
マスクフリーの方法はこの問題を軽減しますが、特にダイナミックな体の動きを持つビデオのトライオンエリアを正確に決定する際に課題に直面しています。
これらの制限に対処するために、PEMF-VTOを提案します。PEMF-VTOは、スパースポイントアラインメントを活用して衣服移動を明示的にガイドする新しいポイント強化されたビデオバーチャルトライドオンフレームワークです。
私たちの主要な革新は、ポイント強化ガイダンスの導入です。これは、空間レベルの衣服の転送と時間レベルのビデオコヒーレンスの両方を柔軟で信頼できる制御を提供します。
具体的には、2つのコアコンポーネントを備えたポイント強化変圧器(PET)を設計します。ポイント強度の空間的注意(PSA)は、フレームクロスポイントアラインメントを使用して衣服移動を正確に導き、ポイント強度の時間的注意(PTA)を設計します。
広範な実験は、PEMF-VTOが最先端の方法を上回り、特に挑戦的なワイルドシナリオのために、より自然で一貫した、視覚的に魅力的なトライオンビデオを生成することを示しています。
紙のホームページへのリンクはhttps://pemf-vto.github.io/です。

要約(オリジナル)

Video Virtual Try-on aims to seamlessly transfer a reference garment onto a target person in a video while preserving both visual fidelity and temporal coherence. Existing methods typically rely on inpainting masks to define the try-on area, enabling accurate garment transfer for simple scenes (e.g., in-shop videos). However, these mask-based approaches struggle with complex real-world scenarios, as overly large and inconsistent masks often destroy spatial-temporal information, leading to distorted results. Mask-free methods alleviate this issue but face challenges in accurately determining the try-on area, especially for videos with dynamic body movements. To address these limitations, we propose PEMF-VTO, a novel Point-Enhanced Mask-Free Video Virtual Try-On framework that leverages sparse point alignments to explicitly guide garment transfer. Our key innovation is the introduction of point-enhanced guidance, which provides flexible and reliable control over both spatial-level garment transfer and temporal-level video coherence. Specifically, we design a Point-Enhanced Transformer (PET) with two core components: Point-Enhanced Spatial Attention (PSA), which uses frame-cloth point alignments to precisely guide garment transfer, and Point-Enhanced Temporal Attention (PTA), which leverages frame-frame point correspondences to enhance temporal coherence and ensure smooth transitions across frames. Extensive experiments demonstrate that our PEMF-VTO outperforms state-of-the-art methods, generating more natural, coherent, and visually appealing try-on videos, particularly for challenging in-the-wild scenarios. The link to our paper’s homepage is https://pemf-vto.github.io/.

arxiv情報

著者 Tianyu Chang,Xiaohao Chen,Zhichao Wei,Xuanpu Zhang,Qing-Guo Chen,Weihua Luo,Peipei Song,Xun Yang
発行日 2025-03-14 10:07:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク