要約
Stable Diffusion のような強力なテキストから画像への生成モデルに基づいて開発された拡散モデルは、ビジュアル ストーリーの生成において目覚ましい成功を収めています。
ただし、最もパフォーマンスの高いアプローチでは、過去に生成された結果が平坦化されたメモリ セルとして考慮され、現在の段階で以前のすべての画像がキャラクターやシーンの生成に等しく寄与しているわけではないという事実が無視されます。
これに対処するために、適応コンテキスト モデリングを使用して主要なシステムを改善する簡単な方法を紹介します。この方法は、エンコーダーに組み込まれるだけでなく、生成されるストーリーの全体的な一貫性を高めるためのサンプリング段階での追加のガイダンスとしても採用されます。
PororoSV および FlintstonesSV データセットでモデルを評価し、私たちのアプローチがストーリーの視覚化と継続シナリオの両方で最先端の FID スコアを達成することを示します。
私たちは詳細なモデル分析を実施し、私たちのモデルがストーリーの意味的に一貫した画像を生成することに優れていることを示しました。
要約(オリジナル)
Diffusion models developed on top of powerful text-to-image generation models like Stable Diffusion achieve remarkable success in visual story generation. However, the best-performing approach considers historically generated results as flattened memory cells, ignoring the fact that not all preceding images contribute equally to the generation of the characters and scenes at the current stage. To address this, we present a simple method that improves the leading system with adaptive context modeling, which is not only incorporated in the encoder but also adopted as additional guidance in the sampling stage to boost the global consistency of the generated story. We evaluate our model on PororoSV and FlintstonesSV datasets and show that our approach achieves state-of-the-art FID scores on both story visualization and continuation scenarios. We conduct detailed model analysis and show that our model excels at generating semantically consistent images for stories.
arxiv情報
著者 | Zhangyin Feng,Yuchen Ren,Xinmiao Yu,Xiaocheng Feng,Duyu Tang,Shuming Shi,Bing Qin |
発行日 | 2023-05-26 10:43:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google