要約
ビデオは、時間の経過に伴う複雑な動的システムの変化を離散画像シーケンスの形式で表します。
動的システムを学習して制御可能なビデオを生成することは、コンピューター ビジョン コミュニティでは重要でありながら未開拓のトピックです。
この論文では、静止画像とテキストキャプションから高度に制御可能なビデオを生成するための新しいフレームワーク TiV-ODE を紹介します。
具体的には、私たちのフレームワークは、複雑な動的システムを一連の非線形常微分方程式として表すために、Neural Ordinary Differential Equations~(Neural ODEs) の機能を活用しています。
結果として得られるフレームワークは、必要なダイナミクスとコンテンツの両方を備えたビデオを生成できます。
実験は、高度に制御可能で視覚的に一貫性のあるビデオを生成する際の提案された方法の能力、および動的システムをモデル化するその能力を示しています。
全体として、この作業は、複雑で動的なシーンを処理できる高度な制御可能なビデオ生成モデルの開発に向けた重要なステップです。
要約(オリジナル)
Videos depict the change of complex dynamical systems over time in the form of discrete image sequences. Generating controllable videos by learning the dynamical system is an important yet underexplored topic in the computer vision community. This paper presents a novel framework, TiV-ODE, to generate highly controllable videos from a static image and a text caption. Specifically, our framework leverages the ability of Neural Ordinary Differential Equations~(Neural ODEs) to represent complex dynamical systems as a set of nonlinear ordinary differential equations. The resulting framework is capable of generating videos with both desired dynamics and content. Experiments demonstrate the ability of the proposed method in generating highly controllable and visually consistent videos, and its capability of modeling dynamical systems. Overall, this work is a significant step towards developing advanced controllable video generation models that can handle complex and dynamic scenes.
arxiv情報
著者 | Yucheng Xu,Nanbo Li,Arushi Goel,Zijian Guo,Zonghai Yao,Hamidreza Kasaei,Mohammadreze Kasaei,Zhibin Li |
発行日 | 2023-03-09 15:13:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google