要約
最近、ビデオ生成は大幅な進歩を遂げ、現実的な結果が得られます。
それにもかかわらず、既存の AI 生成ビデオは通常、単一のシーンを描いた非常に短いクリップ (「ショット レベル」) です。
一貫した長いビデオ (「ストーリー レベル」) を配信するには、さまざまなクリップ間で創造的なトランジションと予測効果を持たせることが望ましいです。
この論文では、生成遷移と予測に焦点を当てた短尺から長尺へのビデオ拡散モデル SEINE を紹介します。
目標は、シーン間の滑らかで創造的な移行と、さまざまな長さのショットレベルのビデオを備えた高品質の長いビデオを生成することです。
具体的には、テキストの説明に基づいてトランジションを自動的に生成するランダムマスクビデオ拡散モデルを提案します。
さまざまなシーンの画像を入力として提供し、テキストベースの制御と組み合わせることで、私たちのモデルは一貫性と視覚的品質を保証するトランジションビデオを生成します。
さらに、このモデルは、画像からビデオへのアニメーションや自己回帰ビデオ予測などのさまざまなタスクに容易に拡張できます。
この新しい生成タスクの包括的な評価を行うために、スムーズで創造的な移行のための 3 つの評価基準、つまり時間的一貫性、意味的類似性、およびビデオとテキストの意味的整合性を提案します。
広範な実験により、生成遷移と予測の既存の方法に対する当社のアプローチの有効性が検証され、ストーリーレベルの長いビデオの作成が可能になります。
プロジェクトページ: https://vchitect.github.io/SEINE-project/ 。
要約(オリジナル)
Recently video generation has achieved substantial progress with realistic results. Nevertheless, existing AI-generated videos are usually very short clips (‘shot-level’) depicting a single scene. To deliver a coherent long video (‘story-level’), it is desirable to have creative transition and prediction effects across different clips. This paper presents a short-to-long video diffusion model, SEINE, that focuses on generative transition and prediction. The goal is to generate high-quality long videos with smooth and creative transitions between scenes and varying lengths of shot-level videos. Specifically, we propose a random-mask video diffusion model to automatically generate transitions based on textual descriptions. By providing the images of different scenes as inputs, combined with text-based control, our model generates transition videos that ensure coherence and visual quality. Furthermore, the model can be readily extended to various tasks such as image-to-video animation and autoregressive video prediction. To conduct a comprehensive evaluation of this new generative task, we propose three assessing criteria for smooth and creative transition: temporal consistency, semantic similarity, and video-text semantic alignment. Extensive experiments validate the effectiveness of our approach over existing methods for generative transition and prediction, enabling the creation of story-level long videos. Project page: https://vchitect.github.io/SEINE-project/ .
arxiv情報
著者 | Xinyuan Chen,Yaohui Wang,Lingjun Zhang,Shaobin Zhuang,Xin Ma,Jiashuo Yu,Yali Wang,Dahua Lin,Yu Qiao,Ziwei Liu |
発行日 | 2023-10-31 17:58:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google