Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis

要約

拡散モデルの優れたテキストから画像への合成機能により、一貫したビジュアル ストーリーの合成が進歩しました。
現在の最先端の方法は、現在のフレームを生成するための条件として、過去のキャプション、過去のフレーム、および現在のキャプションの機能を組み合わせます。
ただし、この方法では、各歴史的なフレームとキャプションが同じ投稿として扱われます。
すべての履歴条件が現在のフレームの生成に関連付けられているわけではないことを無視して、それらを等しい重みで順番に接続します。
この問題に対処するために、私たちはCausal-Storyを提案します。
このモデルには、以前のキャプション、フレーム、および現在のキャプションの間の因果関係を考慮するローカル因果的注意メカニズムが組み込まれています。
この関係に基づいて重みを割り当てることにより、Causal-Story は現在のフレームを生成し、それによってストーリー生成の全体的な一貫性が向上します。
PororoSV および FlintstonesSV データセットでモデルを評価し、最先端の FID スコアを取得しました。また、生成されたフレームは、ビジュアルでより優れたストーリーテリングを示しています。

要約(オリジナル)

The excellent text-to-image synthesis capability of diffusion models has driven progress in synthesizing coherent visual stories. The current state-of-the-art method combines the features of historical captions, historical frames, and the current captions as conditions for generating the current frame. However, this method treats each historical frame and caption as the same contribution. It connects them in order with equal weights, ignoring that not all historical conditions are associated with the generation of the current frame. To address this issue, we propose Causal-Story. This model incorporates a local causal attention mechanism that considers the causal relationship between previous captions, frames, and current captions. By assigning weights based on this relationship, Causal-Story generates the current frame, thereby improving the global consistency of story generation. We evaluated our model on the PororoSV and FlintstonesSV datasets and obtained state-of-the-art FID scores, and the generated frames also demonstrate better storytelling in visuals.

arxiv情報

著者 Tianyi Song,Jiuxin Cao,Kun Wang,Bo Liu,Xiaofeng Zhang
発行日 2024-03-06 16:16:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク