VidStyleODE: Disentangled Video Editing via StyleGAN and NeuralODEs

要約

$ \ textbf {vidstyleode} $を提案します。
生成敵のネットワーク(GAN)によって学んだ潜在空間の効果的なトラバーサルは、画像編集における最近のブレークスルーの基礎となっています。
ただし、ビデオドメインへのこのような進歩の適用性は、GANSの潜在的な空間でビデオを表現および制御することの難しさによって妨げられています。
特に、ビデオはコンテンツ(つまり、外観)と、解き放たれて制御するために特別なメカニズムを必要とする複雑なモーションコンポーネントで構成されています。
これを達成するために、Vidstyleodeは、事前に訓練されたStylegan $ \ Mathcal {w} _+$スペースでビデオコンテンツをエンコードし、潜在的なODEコンポーネントから利益を得て、入力ビデオの時空ダイナミクスを要約します。
その後、私たちの小説の連続ビデオ生成プロセスは、2つを組み合わせて、さまざまなフレームレートで高品質で時間的に一貫したビデオを生成します。
提案された方法では、テキストガイド付きの外観操作、モーション操作、画像アニメーション、ビデオ補間と外挿などのさまざまなアプリケーションが実際のビデオでさまざまなアプリケーションを可能にすることを示しています。
プロジェクトWebサイト:https://cyberiada.github.io/vidstyleode

要約(オリジナル)

We propose $\textbf{VidStyleODE}$, a spatiotemporally continuous disentangled $\textbf{Vid}$eo representation based upon $\textbf{Style}$GAN and Neural-$\textbf{ODE}$s. Effective traversal of the latent space learned by Generative Adversarial Networks (GANs) has been the basis for recent breakthroughs in image editing. However, the applicability of such advancements to the video domain has been hindered by the difficulty of representing and controlling videos in the latent space of GANs. In particular, videos are composed of content (i.e., appearance) and complex motion components that require a special mechanism to disentangle and control. To achieve this, VidStyleODE encodes the video content in a pre-trained StyleGAN $\mathcal{W}_+$ space and benefits from a latent ODE component to summarize the spatiotemporal dynamics of the input video. Our novel continuous video generation process then combines the two to generate high-quality and temporally consistent videos with varying frame rates. We show that our proposed method enables a variety of applications on real videos: text-guided appearance manipulation, motion manipulation, image animation, and video interpolation and extrapolation. Project website: https://cyberiada.github.io/VidStyleODE

arxiv情報

著者 Moayed Haji Ali,Andrew Bond,Tolga Birdal,Duygu Ceylan,Levent Karacan,Erkut Erdem,Aykut Erdem
発行日 2025-02-20 18:56:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク