SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models

要約

人と新しい衣服の入力ビデオが与えられた場合、この論文の目的は、時空間の一貫性を維持しながら、その人が指定された衣服を着ている新しいビデオを合成することです。
画像ベースの仮想試着は大幅に進歩しましたが、その成功をビデオに拡張すると、フレーム間の不一致が発生することがよくあります。
いくつかのアプローチでは、複数のビデオ チャンクにわたるフレームのオーバーラップを増やすことでこの問題に対処しようとしていますが、これは、特に長いビデオ シーケンスの場合、同じフレームを繰り返し処理するため、莫大な計算コストがかかります。
これらの課題に取り組むために、私たちはビデオ仮想試着を条件付きビデオ修復タスクとして再概念化し、衣服を入力条件として機能させます。
具体的には、私たちのアプローチは、時間的コヒーレンスを改善するために時間的注意層を組み込むことによって画像拡散モデルを強化します。
計算オーバーヘッドを削減するために、冗長な計算を最小限に抑えながら時間的一貫性を維持する新しい技術である ShiftCaching を提案します。
さらに、TikTokDress データセットを紹介します。これは、既存の公開データセットと比較して、より複雑な背景、挑戦的な動き、より高い解像度を特徴とする新しいビデオ試着データセットです。
広範な実験により、特にビデオの一貫性と推論速度の点で、私たちのアプローチが現在のベースラインよりも優れていることが実証されました。
プロジェクト ページは https://swift-try.github.io/ で利用できます。

要約(オリジナル)

Given an input video of a person and a new garment, the objective of this paper is to synthesize a new video where the person is wearing the specified garment while maintaining spatiotemporal consistency. Although significant advances have been made in image-based virtual try-on, extending these successes to video often leads to frame-to-frame inconsistencies. Some approaches have attempted to address this by increasing the overlap of frames across multiple video chunks, but this comes at a steep computational cost due to the repeated processing of the same frames, especially for long video sequences. To tackle these challenges, we reconceptualize video virtual try-on as a conditional video inpainting task, with garments serving as input conditions. Specifically, our approach enhances image diffusion models by incorporating temporal attention layers to improve temporal coherence. To reduce computational overhead, we propose ShiftCaching, a novel technique that maintains temporal consistency while minimizing redundant computations. Furthermore, we introduce the TikTokDress dataset, a new video try-on dataset featuring more complex backgrounds, challenging movements, and higher resolution compared to existing public datasets. Extensive experiments demonstrate that our approach outperforms current baselines, particularly in terms of video consistency and inference speed. The project page is available at https://swift-try.github.io/.

arxiv情報

著者 Hung Nguyen,Quang Qui-Vinh Nguyen,Khoi Nguyen,Rang Nguyen
発行日 2024-12-18 18:05:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク