ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context

要約

視覚的なストーリーテリングには、キャラクターやシーンの一貫性を維持しながら、テキストストーリーラインから一貫したフレームのシーケンスを生成することが含まれます。
以前のフレームセンテンスペアに依存している既存の自己回帰方法、高いメモリ使用量、生成速度の低下、および限られたコンテキスト統合に苦労しています。
これらの問題に対処するために、コヒーレントなストーリーフレームを生成し、視覚的なストーリーテリングのためにフレームを拡張するように設計された新しいフレームワークであるContextualStoryを提案します。
ContextualStoryは、空間的に強化された時間的注意を利用して、空間的および時間的依存関係をキャプチャし、重要なキャラクターの動きを効果的に処理します。
さらに、ストーリーラインの埋め込みのコンテキストを濃縮するストーリーラインコンテキストイザーと、モデルをガイドするためにフレーム間のシーンの変更を測定するためのストーリーフローアダプターを紹介します。
PororosvおよびFlintstonessvデータセットに関する広範な実験は、コンテキストストーリーがストーリーの視覚化と継続の両方で既存のSOTAメソッドを大幅に上回ることを示しています。
コードはhttps://github.com/sixiaozheng/contextualstoryで入手できます。

要約(オリジナル)

Visual storytelling involves generating a sequence of coherent frames from a textual storyline while maintaining consistency in characters and scenes. Existing autoregressive methods, which rely on previous frame-sentence pairs, struggle with high memory usage, slow generation speeds, and limited context integration. To address these issues, we propose ContextualStory, a novel framework designed to generate coherent story frames and extend frames for visual storytelling. ContextualStory utilizes Spatially-Enhanced Temporal Attention to capture spatial and temporal dependencies, handling significant character movements effectively. Additionally, we introduce a Storyline Contextualizer to enrich context in storyline embedding, and a StoryFlow Adapter to measure scene changes between frames for guiding the model. Extensive experiments on PororoSV and FlintstonesSV datasets demonstrate that ContextualStory significantly outperforms existing SOTA methods in both story visualization and continuation. Code is available at https://github.com/sixiaozheng/ContextualStory.

arxiv情報

著者 Sixiao Zheng,Yanwei Fu
発行日 2025-02-24 14:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク