DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

要約

タイトル: DreamPose:安定した拡散を通じたファッションイメージからビデオ合成

要約:
– DreamPoseは、静止画からアニメーションファッションビデオを生成するための拡散ベースのメソッドです。
– 与えられた画像と人体ポーズのシーケンスから、人体と生地の動きを含むビデオを合成します。
– これを実現するために、事前学習済みのテキストから画像へのモデル(Stable Diffusion)を、新しい調整戦略、追加の条件付け信号をサポートするためのアーキテクチャ変更セット、および時間的一貫性を促進するテクニックを用いて、ポーズと画像に誘導されたビデオ合成モデルに変換します。
– UBCファッションデータセットからのファッションビデオのコレクションで微調整を行います。
– クロージングスタイルとポーズのさまざまな評価を行い、DreamPoseがファッションビデオアニメーションの最先端の結果を生成することを示します。
– プロジェクトページでビデオ結果を確認できます。

要約(オリジナル)

We present DreamPose, a diffusion-based method for generating animated fashion videos from still images. Given an image and a sequence of human body poses, our method synthesizes a video containing both human and fabric motion. To achieve this, we transform a pretrained text-to-image model (Stable Diffusion) into a pose-and-image guided video synthesis model, using a novel finetuning strategy, a set of architectural changes to support the added conditioning signals, and techniques to encourage temporal consistency. We fine-tune on a collection of fashion videos from the UBC Fashion dataset. We evaluate our method on a variety of clothing styles and poses, and demonstrate that our method produces state-of-the-art results on fashion video animation. Video results are available on our project page.

arxiv情報

著者 Johanna Karras,Aleksander Holynski,Ting-Chun Wang,Ira Kemelmacher-Shlizerman
発行日 2023-05-04 22:29:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク