Boosting Consistency in Story Visualization with Rich-Contextual Conditional Diffusion Models

要約

最近の研究は、一貫したストーリーを生成するための条件付き拡散モデルの大きな可能性を示しています。
しかし、現在の方法では、主に自己回帰的でキャプションに過度に依存した方法でストーリーを生成するため、逐次生成中のフレームの文脈上の一貫性や関連性が過小評価されることがよくあります。
これに対処するために、ストーリー生成の意味的一貫性と時間的一貫性を強化するために設計された 2 段階のアプローチである、新しいリッチコンテキスト条件付き拡散モデル (RCDM) を提案します。
具体的には、第 1 段階では、既知のクリップのキャプションとフレーム間の意味的相関関係を調整することで、未知のクリップのフレーム意味的埋め込みを予測するフレーム前のトランスフォーマー拡散モデルが提示されます。
第 2 段階では、既知のクリップの参照画像、未知のクリップの予測フレーム意味埋め込み、すべてのキャプションのテキスト埋め込みなど、豊富なコンテキスト条件を備えた堅牢なモデルを確立します。
これらの豊富なコンテキスト条件を画像レベルと特徴レベルで共同で注入することにより、RCDM は意味論的および時間的一貫性のあるストーリーを生成できます。
さらに、RCDM は自己回帰モデルと比較して、単一の前方推論で一貫したストーリーを生成できます。
私たちの定性的および定量的な結果は、私たちが提案した RCDM が困難なシナリオで優れたパフォーマンスを発揮することを示しています。
コードとモデルは https://github.com/muzishen/RCDMs で入手できます。

要約(オリジナル)

Recent research showcases the considerable potential of conditional diffusion models for generating consistent stories. However, current methods, which predominantly generate stories in an autoregressive and excessively caption-dependent manner, often underrate the contextual consistency and relevance of frames during sequential generation. To address this, we propose a novel Rich-contextual Conditional Diffusion Models (RCDMs), a two-stage approach designed to enhance story generation’s semantic consistency and temporal consistency. Specifically, in the first stage, the frame-prior transformer diffusion model is presented to predict the frame semantic embedding of the unknown clip by aligning the semantic correlations between the captions and frames of the known clip. The second stage establishes a robust model with rich contextual conditions, including reference images of the known clip, the predicted frame semantic embedding of the unknown clip, and text embeddings of all captions. By jointly injecting these rich contextual conditions at the image and feature levels, RCDMs can generate semantic and temporal consistency stories. Moreover, RCDMs can generate consistent stories with a single forward inference compared to autoregressive models. Our qualitative and quantitative results demonstrate that our proposed RCDMs outperform in challenging scenarios. The code and model will be available at https://github.com/muzishen/RCDMs.

arxiv情報

著者 Fei Shen,Hu Ye,Sibo Liu,Jun Zhang,Cong Wang,Xiao Han,Wei Yang
発行日 2024-07-02 17:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク