SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models

要約

人と新しい衣服の入力ビデオが与えられた場合、この論文の目的は、時空間の一貫性を維持しながら、その人が指定された衣服を着ている新しいビデオを合成することです。
画像ベースの仮想試着では大幅な進歩が見られましたが、その成功をビデオに拡張すると、フレーム間の不一致が生じることがよくあります。
いくつかのアプローチでは、複数のビデオ チャンクにわたるフレームのオーバーラップを増やすことでこの問題に対処しようとしていますが、これは、特に長いビデオ シーケンスの場合、同じフレームを繰り返し処理するため、莫大な計算コストがかかります。
これらの課題に対処するために、衣服を入力条件として使用して、ビデオ仮想試着を条件付きビデオ修復タスクとして再概念化します。
具体的には、私たちのアプローチは、時間的コヒーレンスを改善するために時間的注意層を組み込むことによって画像拡散モデルを強化します。
計算オーバーヘッドを削減するために、冗長な計算を最小限に抑えながら時間的一貫性を維持する新しい技術である ShiftCaching を導入します。
さらに、\dataname~dataset を紹介します。これは、既存の公開データセットと比較して、より複雑な背景、難しい動き、より高い解像度を特徴とする新しいビデオ試着データセットです。
広範な実験により、特にビデオの一貫性と推論速度の点で、私たちのアプローチが現在のベースラインを上回るパフォーマンスを示しています。
データとコードは https://github.com/VinAIResearch/swift-try で入手できます。

要約(オリジナル)

Given an input video of a person and a new garment, the objective of this paper is to synthesize a new video where the person is wearing the specified garment while maintaining spatiotemporal consistency. While significant advances have been made in image-based virtual try-ons, extending these successes to video often results in frame-to-frame inconsistencies. Some approaches have attempted to address this by increasing the overlap of frames across multiple video chunks, but this comes at a steep computational cost due to the repeated processing of the same frames, especially for long video sequence. To address these challenges, we reconceptualize video virtual try-on as a conditional video inpainting task, with garments serving as input conditions. Specifically, our approach enhances image diffusion models by incorporating temporal attention layers to improve temporal coherence. To reduce computational overhead, we introduce ShiftCaching, a novel technique that maintains temporal consistency while minimizing redundant computations. Furthermore, we introduce the \dataname~dataset, a new video try-on dataset featuring more complex backgrounds, challenging movements, and higher resolution compared to existing public datasets. Extensive experiments show that our approach outperforms current baselines, particularly in terms of video consistency and inference speed. Data and code are available at https://github.com/VinAIResearch/swift-try

arxiv情報

著者 Hung Nguyen,Quang Qui-Vinh Nguyen,Khoi Nguyen,Rang Nguyen
発行日 2024-12-13 14:50:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク