DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

要約

タイトル:DreamPose:安定した拡散を介したファッション画像からの動画合成

要約:

– DreamPoseは、静止画像からアニメーション化されたファッション動画を生成するための拡散法に基づく手法を提供する。
– 与えられた画像と人体ポーズのシーケンスに基づいて、人体と布地の動きを含む動画を合成することができる。
– 事前学習済みのテキストから画像へのモデル(安定した拡散)を、ポーズと画像の調整信号をサポートするための一連の建築変更と、時間的一貫性を促進する技術を使用してポーズと画像の誘導付きビデオ合成モデルに変換する。
– UBCファッションデータセットからのファッションビデオのコレクションに微調整を行うことにより、メソッドを評価する。
– さまざまな衣装スタイルやポーズで評価し、メソッドがファッションビデオアニメーションの最新の成果を生み出すことを示す。ビデオの結果はプロジェクトページで利用可能である。

要約(オリジナル)

We present DreamPose, a diffusion-based method for generating animated fashion videos from still images. Given an image and a sequence of human body poses, our method synthesizes a video containing both human and fabric motion. To achieve this, we transform a pretrained text-to-image model (Stable Diffusion) into a pose-and-image guided video synthesis model, using a novel finetuning strategy, a set of architectural changes to support the added conditioning signals, and techniques to encourage temporal consistency. We fine-tune on a collection of fashion videos from the UBC Fashion dataset. We evaluate our method on a variety of clothing styles and poses, and demonstrate that our method produces state-of-the-art results on fashion video animation. Video results are available on our project page.

arxiv情報

著者 Johanna Karras,Aleksander Holynski,Ting-Chun Wang,Ira Kemelmacher-Shlizerman
発行日 2023-04-14 15:36:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク