Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis


拡散モデルの優れたテキストから画像への合成機能により、一貫したビジュアル ストーリーの合成が進歩しました。
この関係に基づいて重みを割り当てることにより、Causal-Story は現在のフレームを生成し、それによってストーリー生成の全体的な一貫性が向上します。
PororoSV および FlintstonesSV データセットでモデルを評価し、最先端の FID スコアを取得しました。また、生成されたフレームは、ビジュアルでより優れたストーリーテリングを示しています。


The excellent text-to-image synthesis capability of diffusion models has driven progress in synthesizing coherent visual stories. The current state-of-the-art method combines the features of historical captions, historical frames, and the current captions as conditions for generating the current frame. However, this method treats each historical frame and caption as the same contribution. It connects them in order with equal weights, ignoring that not all historical conditions are associated with the generation of the current frame. To address this issue, we propose Causal-Story. This model incorporates a local causal attention mechanism that considers the causal relationship between previous captions, frames, and current captions. By assigning weights based on this relationship, Causal-Story generates the current frame, thereby improving the global consistency of story generation. We evaluated our model on the PororoSV and FlintstonesSV datasets and obtained state-of-the-art FID scores, and the generated frames also demonstrate better storytelling in visuals.


著者 Tianyi Song,Jiuxin Cao,Kun Wang,Bo Liu,Xiaofeng Zhang
発行日 2024-03-06 16:16:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク