StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

要約

最近の拡散ベースの生成モデルでは、生成された一連の画像、特に被写体や複雑な詳細を含む画像全体で一貫したコンテンツを維持することが大きな課題となります。
この論文では、生成された画像間の一貫性を大幅に向上させ、一般的な事前学習済みの拡散ベースのテキストから画像へのモデルをゼロショット方式で強化する、Consistent Self-Attention と呼ばれる新しいセルフ アテンション計算方法を提案します。
私たちの方法を長距離ビデオ生成に拡張するために、Semantic Motion Predictor と呼ばれる新しいセマンティック時空間動き予測モジュールをさらに導入します。
意味空間内で提供された 2 つの画像間の動きの状態を推定するようにトレーニングされます。
このモジュールは、生成された画像シーケンスを、滑らかなトランジションと一貫した主題を備えたビデオに変換します。これは、特に長いビデオ生成のコンテキストにおいて、潜在スペースのみに基づくモジュールよりも大幅に安定しています。
これら 2 つの新しいコンポーネントを結合することにより、StoryDiffusion と呼ばれる私たちのフレームワークは、豊富なコンテンツを含む一貫した画像またはビデオを使用してテキストベースのストーリーを記述することができます。
提案されている StoryDiffusion には、画像とビデオのプレゼンテーションによる視覚的なストーリー生成の先駆的な探求が含まれており、これがアーキテクチャの変更の側面からさらなる研究を促すことができることを期待しています。
私たちのコードは https://github.com/HVision-NKU/StoryDiffusion で公開されています。

要約(オリジナル)

For recent diffusion-based generative models, maintaining consistent content across a series of generated images, especially those containing subjects and complex details, presents a significant challenge. In this paper, we propose a new way of self-attention calculation, termed Consistent Self-Attention, that significantly boosts the consistency between the generated images and augments prevalent pretrained diffusion-based text-to-image models in a zero-shot manner. To extend our method to long-range video generation, we further introduce a novel semantic space temporal motion prediction module, named Semantic Motion Predictor. It is trained to estimate the motion conditions between two provided images in the semantic spaces. This module converts the generated sequence of images into videos with smooth transitions and consistent subjects that are significantly more stable than the modules based on latent spaces only, especially in the context of long video generation. By merging these two novel components, our framework, referred to as StoryDiffusion, can describe a text-based story with consistent images or videos encompassing a rich variety of contents. The proposed StoryDiffusion encompasses pioneering explorations in visual story generation with the presentation of images and videos, which we hope could inspire more research from the aspect of architectural modifications. Our code is made publicly available at https://github.com/HVision-NKU/StoryDiffusion.

arxiv情報

著者 Yupeng Zhou,Daquan Zhou,Ming-Ming Cheng,Jiashi Feng,Qibin Hou
発行日 2024-05-02 16:25:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク