ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context

要約

ビジュアルストーリーテリングでは、文字とシーンの一貫性を維持しながら、テキストのストーリーラインから一連の一貫したフレームを生成することが含まれます。
以前のフレームと文のペアに依存する既存の自己回帰手法は、メモリ使用量が多く、生成速度が遅く、コンテキスト統合が制限されているという問題があります。
これらの問題に対処するために、私たちは、一貫したストーリー フレームを生成し、ストーリーの継続のためにフレームを拡張するように設計された新しいフレームワークである ContextualStory を提案します。
ContextualStory は、空間的に強化された時間的注意を利用して、空間的および時間的依存関係をキャプチャし、重要なキャラクターの動きを効果的に処理します。
さらに、ストーリーラインの埋め込みでコンテキストを強化する Storyline Contextualizer と、モデルをガイドするためにフレーム間のシーンの変化を測定する StoryFlow Adaptor を導入します。
PororoSV と FlintstonesSV のベンチマークに関する広範な実験により、ContextualStory がストーリーの視覚化とストーリーの継続の両方において既存の手法を大幅に上回ることが実証されました。

要約(オリジナル)

Visual storytelling involves generating a sequence of coherent frames from a textual storyline while maintaining consistency in characters and scenes. Existing autoregressive methods, which rely on previous frame-sentence pairs, struggle with high memory usage, slow generation speeds, and limited context integration. To address these issues, we propose ContextualStory, a novel framework designed to generate coherent story frames and extend frames for story continuation. ContextualStory utilizes Spatially-Enhanced Temporal Attention to capture spatial and temporal dependencies, handling significant character movements effectively. Additionally, we introduces a Storyline Contextualizer to enrich context in storyline embedding and a StoryFlow Adapter to measure scene changes between frames for guiding model. Extensive experiments on PororoSV and FlintstonesSV benchmarks demonstrate that ContextualStory significantly outperforms existing methods in both story visualization and story continuation.

arxiv情報

著者 Sixiao Zheng,Yanwei Fu
発行日 2024-08-21 14:17:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク